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内 容 提 要 


Java 提供 了 一 大 ,非常 强大 的 并 发 API， 可 以 轻松 实现 任何 类 型 的 并 发 应 用 程序 。 本 


讲述 Java 并 发 


API 最 重要 的 元 素 ， 包 括 执行 器 框架 、Phaser 类 、Fork/Join 框架 、 流 API、 并 发 数据 结构 、 同 步 机 制 ， 并 
展示 如 何在 实际 开发 中 使 用 它们 。 此 外 ， 本 书 还 介绍 了 设计 并 发 应 用 程序 的 方法 论 、 设 计 模 式 、 实 现 良好 


语言 实现 并 发 应 用 程序 。 
本 书 适合 Java 开发 人 员 阅 读 。 
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并 发 应 用 程序 的 提示 和 技巧 、 测 试 并 发 应 用 程序 的 工具 和 方法 ， 以 及 如 何 使 用 面向 Java 虚拟 机 的 其 他 编程 


译 者 厅 


Java 是 一 门 非常 强大 的 编程 语言 , 特色 突出 , 性 能 卓越 , 几乎 在 你 说 得 出 名 称 的 所 有 计算 平台 上 ， 
都 或 多 或 少 会 浮现 出 Java 的 影子 。 当 初 Sun 公司 在 推出 Java 之 际 就 将 其 作为 一 种 开放 式 的 编程 语言 ， 
这 无 疑 为 Java 注 入 了 永久 的 生命 力 ， 也 绝对 是 一 个 足以 对 人 类 社会 进步 产生 重大 影响 的 伟大 决定 。 

Java 并 发 API 显然 只 是 Java 提供 的 一 部 分 功能 。 然 而 到 现在 , 在 历经 多 次 修改 和 丰富 后 , 它 已 经 
强大 到 每 个 程序 员 都 应 予以 高 度 重视 的 程度 。 在 Java 的 每 个 版 本 中 , 并 发 API 提供 给 程序 员 的 功能 都 
在 增加 。 本 书 是 近年 来 不 可 多 得 的 一 本 专门 介绍 Java 并 发 编程 的 图 书 ， 对 于 致力 于 Java 大 型 程序 设 
计 、 并 行 计算 、 分 布 式 计 算 和 大 数据 分 析 处 理 等 方向 的 科研 人 员 和 工程 人 员 来 说 ， 它 值得 一 读 。 可 以 
说 本 书 是 从 并 发 处 理 的 视角 来 探讨 Java 编程 ， 也 可 以 说 是 从 Java 的 视角 探讨 并 发 处 理 。 要 阅读 本 书 ， 
需要 预先 了 解 Java 语言 的 一 些 基础 知识 ， 需 要 有 一 些 基本 的 Java 程序 设计 经 验 ， 最 好 还 了 解 一 些 并 
行 计算 或 者 数据 处 理 的 相关 技术 。 译 者 不 建议 Java 语言 的 初学 者 直接 学 习 本 书 。 

当 2016 年 本 书 第 1 版 《精通 Java 8 并 发 编程 》) 刚 出 版 时 ， 图 灵 公 司 就 敏锐 洞察 到 本 书 的 价值 ， 
并 立即 开始 组 织 翻译 工作 。 遗 憾 的 是 ， 此 后 不 久 官方 就 宣布 了 Java9 即将 发 布 的 消息 。2017 年 ，Java9 
正式 发 布 后 , 作者 迅速 推出 了 针对 Java 9 并 发 编程 的 第 2 版 图 书 , 因此 原 书 第 1 版 虽然 已 经 翻译 完成 ， 
但 是 最 终 没 能 跟 读 者 见 首 

在 第 2 版 中 ， 作 者 修订 了 原 书 第 1 版 的 若干 错误 ， 更 换 了 部 分 演示 代码 ， 增 删 了 部 分 章节 ， 使 全 
书 内 容 更 具 系统 性 ， 同 时 也 增加 和 融入 了 Java 9 的 一 些 新 特性 。 该 书 的 主要 特点 如 下 。 

口 第 一 ,脉络 清晰 ， 内 容 全 面 。 从 执行 器 框架 到 流 API， 从 并 发 数据 结构 到 同步 机 制 ， 从 程序 设 

计 到 调试 测试 ， 基 本 上 所 有 与 并 发 程序 设计 相关 的 内 容 都 有 所 涉及 。 全 书 主线 明晰 ， 阅 读 起 
来 比较 轻松 。 

口 第 二 ， 语言 通俗 ， 举 例 充 分 。 教 科 书 式 的 语言 相对 较 少 ， 原 理 通俗 易 懂 ， 实 例 简 洁 明 了 。 几 
乎 针对 每 个 重要 的 知识 点 都 提供 了 足够 的 代码 示例 ， 使 得 学 习 和 练习 都 很 方便 。 

D 第 三 ， 面 向 应 用 ， 便 于 上 手 。 作 者 的 视角 并 不 是 停留 在 并 发 编程 本 身 ， 而 是 在 于 如 何 使 用 并 

发 编程 解决 实际 问题 以 及 提高 处 理 效能 。 读 者 不 需要 深 陷 于 原理 本 身 ， 宜 结合 实际 各 取 所 需 ， 
而 且 书 中 的 示例 也 都 很 实用 。 

从 第 1 版 到 第 2 版 ， 本 书 的 翻译 过 程 宛 长 而 艰苦 ， 同 时 也 让 译 者 获 益 良 多 ， 但 是 限于 译 者 水 平 ， 
译文 之 中 难免 会 出 现 一 些 错漏 之 处 ， 敬 请 读者 海 涵 。 图 灵 公司 的 多 位 编辑 在 本 书 的 翻译 过 程 中 给 予 了 
指导 ， 为 本 书 耗费 了 大 量 心血 ， 在 此 一 并 表示 感谢 。 


o 


致 Nuria、Paula 和 Pelayo， 感 谢 你 们 无 限 的 关爱 和 耐心 。 
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前 


目前 , 计算 机 系统 ( 以 及 其 他 相关 系统 ， 如 平板 电脑 、 智 能 手机 等 ) 可 以 让 你 同时 执行 多 项 任务 。 


这 是 因为 它们 


上 有 并 发 的 操作 系统 ,能够 同时 控制 多 项 任务 。 使 用 你 最 喜欢 的 编程 语言 中 的 并 发 API， 


还 能 实现 一 个 
提供 了 一 套 非 


可 以 同时 执行 多 项 任务 读 取 文件 、 显 示 消 息 、 读 取 网 络 上 的 数据 ) 的 应 用 程序 。Java 
常 强大 的 并 发 API， 让 你 不 费 吹 灰 之 力 就 可 以 实现 任何 类 型 的 并 发 应 用 程序 。 在 Java 的 


每 个 版 本 中 ,该 并 发 API 提供 给 程序 员 的 功能 都 有 所 增加 。 从 Java 8 开始 ,已 经 包含 了 流 API 以 及 一 


些 便 于 实现 并 发 应 用 程序 的 新 方法 和 类 。 本 书 讲述 了 Java 并 发 API 最 重要 的 元 素 , 展示 了 如 何在 实际 


开发 中 使 用 它们 。 这 些 元 素 如 下 所 示 。 


口 执行 器 框架 ， 用 于 控制 大 量 任务 的 执行 。 


口 Phas 


r 类 ， 用 于 执行 可 划分 为 多 个 阶段 的 任务 。 


口 Fork/Join 框架 ,用 于 执行 采用 分 治 法 解决 问题 的 任务 。 


发 应 用 程序 的 


(例如 Clojure、Groovy 和 Scala ) 实现 并 发 应 用 程序 的 方法 。 


本 书 内 容 


第 1 章 ， 


口 流 API， 用 于 处 理 大 型 数据 源 ， 包 括 新 的 反应 流 。 
口 并 发 数据 结构 ， 用 于 在 并 发 应 用 程序 中 存储 数据 。 
口 同步 机 制 ， 用 于 组 织 并 发 任务 。 

此 外 ，Java 并 发 API 还 包含 更 多 内 容 , 包括 设计 并 发 应 用 程序 的 方法 论 、 设 计 模 式 、 实 现 良好 并 


提示 和 技巧 、 测 试 并 发 应 用 程序 的 工具 和 方法 ， 以 及 采用 其 他 面向 Java 虚拟 机 的 语言 


“第 一 步 : 并 发 设计 原理 "。 这 一 章 将 介绍 并 发 应 用 程序 的 设计 原理 。 你 还 将 了 解 到 并 发 


应 用 程序 可 能 出 现 的 问题 ， 以 及 设计 并 发 应 用 程序 的 方法 论 ， 同 时 还 会 学 到 一 些 设 计 模 式 、 提 示 和 


技巧 。 
第 2 章 ， 


“使 用 基本 元 素 : Thread 和 Runnable”。 这 一 章 将 解释 如 何 采 用 Java 语言 中 最 基本 的 


元 素 (Runnable 接口 和 Thread 类 ) 来 实现 并 发 应 用 程序 。 有 了 这 些 元 素 ， 你 可 以 创建 一 个 可 与 实 


际 执行 线程 并 
第 3 章 ， 
大 量 的 线程 ， 
第 4 章 ， 


行 执行 的 新 执行 线程 。 

“管理 大 量 线程 : 执行 器 "。 这 一 章 将 介绍 执行 器 框架 的 基本 原理 。 该 框架 让 你 能 够 使 用 
而 无 须 创 建 或 管理 它们 。 你 将 实现 最 近邻 算法 和 一 个 基本 的 客户 端 /服务 器 应 用 程序 。 
“充分 利用 执行 器 "。 这 一 章 将 探讨 执行 器 的 一 些 高 级 特性 ,包括 为 了 在 一 段 延迟 之 后 或 


每 隔 一 定时 间 执 行 任务 而 进行 的 任务 撤销 和 调度 ,你 将 实现 一 个 高 级 客户 端 /服务 器 应 用 程序 和 一 个 新 
闻 阅 读 器 。 

第 5 章 ,“ 从 任务 获取 数据 : callable 接口 与 Future 接口 "。 这 一 章 将 介绍 如 何在 执行 器 中 人 处 
理 采 用 callable 与 Future 接口 返回 结果 的 任务 。 你 将 实现 一 个 最 佳 匹配 算法 以 及 一 个 构建 倒 排 索 
引 的 应 用 程序 。 

第 6 章 ,“ 运 行 分 为 多 阶段 的 任务 : Phaser 类 ”。 这 一 章 将 介绍 如 何 使 用 Phaser 类 来 并 发 执行 
那些 可 分 为 多 个 阶段 的 任务 。 你 将 实现 关键 字 抽 取 算 法 和 遗传 算法 。 

第 7 章 ,“ 优 化 分 治 解决 方案 : Fork/Join 框架 "。 这 一 章 将 介绍 如 何 使 用 一 种 特殊 的 执行 器 ,该 执 
行 器 针对 可 以 使 用 分 治 法 解决 的 问题 进行 了 优化 , 这 就 是 Fork/Join 框架 及 其 工作 窃取 ( work-stealing ) 
算法 。 你 将 实现 k-means 聚 类 算法 、 数 据 般 选 算法 以 及 归并 排序 算法 。 

第 8 章 , “使 用 并 行 流 处 理 大 规模 数据 集 : MapReduce 模型 "。 这 一 章 将 介绍 如 何 采 用 流 来 处 理 
大 规模 数据 集 。 你 将 学 习 如 何 使 用 流 API 和 更 多 的 流 函 数 来 实现 MapReduce 应 用 程序 。 你 将 实现 一 个 
数值 汇总 算法 和 一 个 信息 检索 工具 。 

第 9 章 , “使 用 并 行 流 处 理 大 规模 数据 集 : MapCollect 模型 "。 这 一 章 将 探讨 如 何 使 用 流 API 中 的 
collect () 方 法 对 数据 流 执行 可 变 约 简 (mutable reduction ) 操作 ， 将 其 转换 为 一 种 不 同 的 数据 结构 ， 
包括 在 collectors 类 中 预定 义 的 一 些 收集 器 。 你 将 实现 一 个 无 须 建立 索引 就 能 够 搜索 数据 的 工具 、 
一 个 推荐 系统 ， 以 及 计算 社交 网 络 中 两 个 人 的 共同 联系 人 列表 的 算法 。 

第 10 章 , “异步 流 处 理 : 反应 流 ”。 这 一 章 将 解释 如 何 使 用 反应 流 来 实现 并 发 应 用 程序 ， 而 反应 
流 则 为 带 有 非 阻 塞 回 压 的 异步 流 处 理 定 义 了 标准 。 这 种 流 的 基本 原理 在 官方 网 站 的 Reactive Streams 
介绍 页 面 上 有 明确 说 明 ， 而 Java 9 为 其 实现 提供 了 必要 的 基础 接口 。 

第 11 章 ,，“ 探 究 并 发 数据 结构 和 同步 工具 ”"。 这 一 章 将 介绍 如 何 使 用 最 重要 的 并 发 数据 结构 ( 可 
用 于 并 发 应 用 程序 而 不 会 导致 数据 竞争 条 件 的 数据 结构 )， 以 及 Java 并 发 API 中 用 于 组 织 任务 执行 的 
所 有 同步 机 第 

第 12 章 ,“ 测 试 与 监视 并 发 应 用 程序 "。 这 一 章 将 介绍 如 何 获 得 Java 并 发 API 元 素 (线程 、 锁 、 
执行 器 等 ) 的 状态 信息 。 你 还 将 学 习 如 何 使 用 JConsole 应 用 程序 来 监视 并 发 应 用 程序 ， 以 及 如 何 使 用 
MultithreadedTC 库 和 Java Pathfinder 应 用 程序 来 测试 并 发 应 用 程序 。 

第 13 章 ,“JVM 中 的 并 发 处 理 : Clojure、 带 有 Gpars 库 的 Groovy 以 及 Scala”。 这 一 章 将 介绍 
如 何 使 用 面向 Java 虚拟 机 的 其 他 编程 语言 来 实现 并 发 应 用 程序 。 你 将 学 习 如 何 使 用 Clojure 、Scala 以 
及 带 有 Gpars 库 的 Groovy 等 编程 语言 所 提供 的 并 发 元 素 。 


一 


[e) 


阅读 前 提 
要 学 习 本 书 ， 你 需要 拥有 Java 编程 语言 的 初中 级 知识 ， 最 好 还 对 并 发 概念 有 基本 的 了 解 。 
本 书 读者 


如 果 你 是 了 解 并 发 编程 基本 原理 的 Java 开发 人 员 ， 同 时 又 想 成 为 Java 并 发 API 的 专家 型 用 户 ， 


以 便 开发 出 能 够 充分 利用 计算 机 全 部 硬件 资源 的 最 优化 应 用 程序 ， 那么 本 书 就 非常 适合 你 。 


排版 约定 


在 本 书 中 ， 你 会 发 现 多 种 文本 样式 ， 用 于 区 分 不 同 种 类 的 信息 。 下 面 是 一 些 文本 样式 的 例子 ， 以 
及 对 这 些 样式 含义 的 说 明 。 
正文 中 的 代码 、 数 据 库 表 名 、 用 户 输入 等 都 采用 如 下 样式 :“modify () 方 法 并 不 是 原子 的 ， 而 
Account 类 也 不 是 线程 安全 的 。 
代码 段 的 样式 如 下 。 
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第 一 步 : 并 发 设计 原理 


计算 机 系统 的 用 户 总 是 希望 自己 的 系统 具有 更 好 的 性 能 。 他 们 想 要 获得 质量 更 高 的 视频 、 更 好 的 视 
频 游戏 和 更 快 的 网 络 速度 。 几 年 前 ,提高 处 理 器 的 速度 可 以 为 用 户 提 供 更 好 的 性 能 。 但 是 如 今 ， 处 理 
器 的 速度 并 没有 加 快 。 取 而 代 之 的 是 ， 处 理 器 增加 了 更 多 核心 ， 这 样 操作 系统 就 可 以 同时 执行 多 个 任 
务 。 这 就 是 所 谓 的 并 发 处 理 。 并 发 编程 涵盖 了 在 一 台 计算 机 上 同时 运行 多 个 任务 或 进程 所 需 的 所 有 工具 
和 技术 ， 以 及 任务 或 进程 之 间 为 消除 数据 丢失 或 不 一 致 而 进行 的 通信 和 同步 。 本 章 将 探讨 如 下 主题 。 
口 基本 的 并 发 概念 。 
口 并 发 应 用 程序 中 可 能 出 现 的 问题 。 
口 设计 并 发 算法 的 方法 论 。 
口 Java 并 发 API。 
口 并 发 设计 模式 。 
口 设计 并 发 算法 的 提示 和 技巧 。 


1.1 基本 的 并 发 概念 
首先 介绍 一 下 并 发 的 基本 概念 。 要 理解 本 书 其 余 的 内 容 ， 必 须 先 理解 这 些 概念 。 


1.1.1 并 发 与 并 行 


并 发 和 并 行 是 非常 相似 的 概念 ,不 同 的 作者 会 给 这 两 个 概念 下 不 同 的 定义 。 关 于 并 发 ， 最 被 人 们 
认可 的 定义 是 ， 在 单个 处 理 器 上 采用 单 核 执 行 多 个 任务 即 为 并 发 。 在 这 种 情况 下 ， 操 作 系统 的 任务 
调度 程序 会 很 快 从 一 个 任务 切换 到 另 一 个 任务 ， 因 此 看 起 来 所 有 任务 都 是 同时 运行 的 。 对 于 并 行 来 
说 也 有 同样 的 定义 : 同一 时 间 在 不 同 的 计算 机 、 处 理 器 或 处 理 器 核心 上 同时 运行 多 个 任务 ， 就 是 所 
谓 的 “并 行 ”。 

男 一 个 关于 并 发 的 定义 是 ， 在 系统 上 同时 运行 多 个 任务 ( 不同 的 任务 ) 就 是 并 发 。 而 另 一 个 关于 
并 行 的 定义 是 : 同时 在 某 个 数据 集 的 不 同 部 分 之 上 运行 同一 任务 的 不 同 实 例 就 是 并 行 。 

关于 并 行 的 最 后 一 个 定义 是 ， 系 统 中 同时 运行 了 多 个 任务 。 关 于 并 发 的 最 后 一 个 定义 是 ,一 种 解 
释 程 序 员 将 任务 和 它们 对 共享 资源 的 访问 同步 的 不 同 技术 和 机 制 的 方法 。 

正如 你 看 到 的 ， 这 两 个 概念 非常 相似 ， 而 且 这 种 相似 性 随 着 多 核 处 理 器 的 发 展 也 在 不 断 增强 。 


1.1.2 同步 


在 并 发 中 ,我 们 可 以 将 同步 定义 为 一 种 协调 两 个 或 更 多 任务 以 获得 预期 结果 的 机 制 。 同 步 方式 有 
两 种 。 
口 控制 同步 : 例如 ， 当 一 个 任务 的 开始 依赖 于 另 一 个 任务 的 结束 时 ， 第 二 个 任务 不 能 在 第 一 个 
任务 完成 之 前 开始 。 

口 数据 访问 同步 : 当 两 个 或 更 多 任务 访问 共享 变量 时 ， 在 任意 时 间 里 ， 只 有 一 个 任务 可 以 访问 
该 变量 。 
与 同步 密切 相关 的 一 个 概念 是 临界 段 。 临 界 段 是 一 段 代码 ， 由 于 它 可 以 访问 共享 资源 ， 因 此 在 任 
何 给 定时 间 内 ， 只 能 够 被 一 个 任务 执行 。 互 斥 是 用 来 保证 这 一 要 求 的 机 制 ， 而 且 可 以 采用 不 同 的 方式 
来 实现 。 
请 记 住 ， 同 步 可 以 帮助 你 在 完成 并 发 任务 的 同时 避免 一 些 错误 ( 本 章 稍 后 将 详 述 )， 但 是 它 也 为 
你 的 算法 引入 了 一 些 开销 。 你 必须 非常 仔细 地 计算 任务 的 数量 ,， 这些 任务 可 以 独立 执行 ， 而 无 须 并 行 
算法 中 的 互通 信 。 这 就 涉及 并 发 算法 的 粒度 。 如 果 算 法 有 着 粗 粒 度 ( 低 互通 信 的 大 型 任务 )， 同 步 方 
面 的 开销 就 会 较 低 。 然 而 ， 也 许 你 不 会 用 到 系统 所 有 的 核心 。 如 果 算 法 有 着 细 粒 度 (高 互通 信 的 小 型 
任务 )， 同 步 方 面 的 开销 就 会 很 高 ， 而 且 该 算法 的 否 吐 量 可 能 不 会 很 好 。 
并 发 系统 中 有 不 同 的 同步 机 制 。 从 理论 角度 来 看 ， 最 流行 的 机 制 如 下 。 
口 信号 量 ( semaphore ): 一 种 用 于 控制 对 一 个 或 多 个 单位 资源 进行 访问 的 机 制 。 它 有 一 个 用 于 存 
放 可 用 资源 数量 的 变量 , 并 且 可 以 采用 两 种 原子 操作 来 管理 该 变量 的 值 。 互 斥 ( mutex, mutual 
exclusion 的 简写 形式 ) 是 一 种 特殊 类 型 的 信号 量 ， 它 只 能 取 两 个 值 ( 即 资源 空闲 和 资源 忙 )， 
而 且 只 有 将 互 斥 设置 为 忙 的 那个 进程 才 可 以 释放 它 。 互 斥 可 以 通过 保护 临界 段 来 帮助 你 避免 
出 现 竞争 条 件 。 

口 监视 器 : 一 种 在 共享 资源 之 上 实现 互 斥 的 机 制 。 它 有 一 个 互 斥 、 一 个 条 件 变量 、 两 种 操作 ( 等 
待 条 件 和 通报 条 件 )。 一 旦 你 通报 了 该 条 件 ， 在 等 待 它 的 任务 中 只 有 一 个 会 继续 执行 。 

在 本 章 中 ,你 将 要 学 习 的 与 同步 相关 的 最 后 一 个 概念 是 线程 安全 。 如 果 共 享 数 据 的 所 有 用 户 都 受 
到 同步 机 制 的 保护 ， 那 么 代码 (或 方法 、 对 象 ) 就 是 线程 安全 的 。 数 据 的 非 阻塞 的 CAS ( compare- 
and-swap ， 比 较 和 交换 ) 原 语 是 不 可 变 的 , 这 样 就 可 以 在 并 发 应 用 程序 中 使 用 该 代码 而 不 会 出 任何 问题 。 


1.1.3 不 可 变 对 象 


不 可 变 对 象 是 一 种 非常 特殊 的 对 象 。 在 其 初始 化 后 ， 不 能 修改 其 可 视 状 态 ( 其 属性 值 )。 如 果 想 
修改 一 个 不 可 变 对 象 ， 那 么 你 就 必须 创建 一 个 新 的 对 象 。 

不 可 变 对 象 的 主要 优点 在 于 它 是 线程 安全 的 。 你 可 以 在 并 发 应 用 程序 中 使 用 它 而 不 会 出 现任 何 
问题 。 

不 可 变 对 象 的 一 个 例子 就 是 Java 中 的 string 类 。 当 你 给 一 个 string 对 象 赋 新 值 时 ,会 创建 一 
个 新 的 String 对 象 。 
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1.1.4 ”原子 操作 和 原子 变量 


与 应 用 程序 的 其 他 任务 相 比 ， 原 子 操 作 是 一 种 发 生 在 瞬间 的 操作 。 在 并 发 应 用 程序 中 ， 可 以 通过 
个 临界 段 来 实现 原子 操作 ， 以 便 对 整个 操作 采用 同步 机 制 。 
原子 变量 是 一 种 通过 原子 操作 来 设置 和 获取 其 值 的 变量 。 可 以 使 用 某 种 同步 机 制 来 实现 一 个 原子 
变量 , 或 者 也 可 以 使 用 CAS 以 无 锁 方式 来 实现 一 个 原子 变量 ， 而 这 种 方式 并 不 需要 任何 同步 机 制 。 


1.1.5 ”共享 内 存 与 消息 传递 


任务 可 以 通过 两 种 不 同 的 方法 来 相互 通信 。 第 一 种 方法 是 共享 内 存 ， 通 常用 于 在 同一 台 计 算 机 上 
运行 多 任务 的 情况 。 任 务 在 读 取 和 写 入 值 的 时 候 使 用 相同 的 内 存 区 域 。 为 了 避免 出 现 问 题 ， 对 该 共享 
内 存 的 访问 必须 在 一 个 由 同步 机 制 保护 的 临界 段 内 完成 。 

另 一 种 同步 机 制 是 消息 传递 ， 通 常用 于 在 不 同 计算 机 上 运行 多 任务 的 情形 。 当 一 个 任务 需要 与 另 
一 个 任务 通信 时 ， 它 会 发 送 一 个 遵循 预定 义 协 议 的 消息 。 如 果 发 送 方 保 持 阻 塞 并 等 待 响应 ， 那 么 该 通 
信和 就 是 同步 的 ;如 果 发 送 方 在 发 送 消息 后 继续 执行 自己 的 流程 ， 那 么 该 通信 就 是 异步 的 。 


1.2 ”并 发 应 用 程序 中 可 能 出 现 的 问题 

编写 并 发 应 用 程序 并 不 是 一 件 容易 的 工作 。 如 果 不 能 正确 使 用 同步 机 制 ， 应 用 程序 中 的 任务 就 会 
出 现 各 种 问题 。 本 节 将 介绍 一 些 此 类 问题 。 

1.2.1 ”数据 竞争 


如 果 有 两 个 或 者 多 个 任务 在 临界 段 之 外 对 一 个 共享 变量 进行 写 人 操作 , 也 就 是 说 没有 使 用 任何 同 
步 机 制 ， 那 么 应 用 程序 可 能 存在 数据 竞争 〈 也 叫 作 竞争 条 件 )。 
在 这 些 情况 下 ， 应 用 程序 的 最 终结 果 可 能 取决 于 任务 的 执行 顺序 。 请 看 下 面 的 例子 。 


package com.packt.java.concurrency; 


public class Account { 
private float balance; 
public void modify (float difference) { 
float value=this.balance; 
this.balance=value+tdifference; 


小 


} 

假设 有 两 个 不 同 的 任务 执行 了 同一 个 Account 对 象 中 的 modify () 方 法 。 由 于 任务 中 语句 的 执行 
顺序 不 同 ， 最 终结 果 也 会 有 所 不 同 。 假 设 初始 余额 为 1000， 而 且 两 个 任务 都 调用 了 modi fy () 方 法 并 
采用 1000 作为 参数 。 最 终 的 结果 应 该 是 3000， 但 是 如 果 两 个 任务 都 在 同一 时 间 执行 了 第 一 条 语句 ， 


然后 又 在 同一 时 间 执 行 了 第 二 条 语句 ， 那 么 最 终 的 结果 将 是 2000。 正 如 你 看 到 的 ，moai fy () 方 法 不 
是 原子 的 ， 而 Account 类 也 不 是 线程 安全 的 。 


1.2.2” 死 锁 


当 两 个 (或 多 个 ) 任务 正在 等 待 必 须 由 另 一 线程 释放 的 某 个 共享 资源 ， 而 该 线程 又 正在 等 待 必 须 
前述 任务 之 一 释放 的 另 一 共享 资源 时 ， 并 发 应 用 程序 就 出 现 了 死 锁 。 当 系统 中 同时 出 现 如 下 四 种 条 
件 时 ， 就 会 导致 这 种 情形 。 我 们 将 其 称 为 Coffman 条 件 。 

口 互 斥 : 死 锁 中 涉及 的 资源 必须 是 不 可 共享 的 。 一 次 只 有 一 个 任务 可 以 使 用 该 资源 。 

口 占有 并 等 待 条 件 : 一 个 任务 在 占有 某 一 互 斥 的 资源 时 又 请 求 另 一 互 斥 的 资源 。 当 它 在 等 待 时 ， 
不 会 释放 任何 资源 。 

口 不 可 剥夺 : 资源 只 能 被 那些 持 有 它们 的 任务 释放 。 

口 循环 等 待 : 任务 1 正 等 待 任务 2 所 占有 的 资源 ， 而 任务 2 又 正在 等 待 任务 3 所 占有 的 资源 ， 

以 此 类 推 ， 最终 任务 n 又 在 等 待 由 任务 1 所 占有 的 资源 ， 这 样 就 出 现 了 循环 等 待 。 

有 一 些 机 制 可 以 用 来 避免 死 锁 。 

口 忽略 它们 : 这 是 最 常用 的 机 制 。 你 可 以 假设 自己 的 系统 绝 不 会 出 现 死 锁 ， 而 如 果 发 生死 锁 ， 

结果 就 是 你 可 以 停止 应 用 程序 并 且 重新 执行 它 。 

口 检测 : 系统 中 有 一 项 专门 分 析 系 统 状态 的 任务 ， 可 以 检测 是 否 发 生 了 死 锁 。 如 果 它 检测 到 了 

死 锁 ， 可 以 采取 一 些 措 施 来 修复 该 问题 ， 例 如 ， 结 束 某 个 任务 或 者 强制 释放 某 一 资源 。 

口 预防 : 如 果 你 想 防 止 系统 出 现 死 锁 ， 就 必须 预防 Coftman 条 件 中 的 一 条 或 多 条 出 现 。 

口 规避 : 如 果 你 可 以 在 某 一 任务 执行 之 前 得 到 该 任务 所 使 用 资源 的 相关 信息 ,那么 死 锁 是 可 以 
规避 的 。 当 一 个 任务 要 开始 执行 时 ， 你 可 以 对 系统 中 空闲 的 资源 和 任务 所 需 的 资源 进行 分 析 ， 

这 样 就 可 以 判断 任务 是 否 能 够 开始 执行 。 


1.2.3 ” 活 锁 


如 果 系 统 中 有 两 个 任务 ,它们 总 是 因 对 方 的 行为 而 改变 自己 的 状态 ,那么 就 出 现 了 活 锁 。 最 终结 
果 是 它们 陷入 了 状态 变更 的 循环 而 无 法 继续 向 下 执行 。 
例如 ， 有 两 个 任务 : 任务 1 和 任务 2， 它 们 都 需要 用 到 两 个 资源 : 资源 1 和 资源 2。 假 设 任务 1 
对 资源 1 加 了 一 个 锁 ， 而 任务 2 对 资源 2 加 了 一 个 锁 。 当 它们 无 法 访问 所 需 的 资源 时 ， 就 会 释放 自己 的 
资源 并 且 重 新 开始 循环 。 这 种 情况 可 以 无 限 地 持续 下 去 ， 所 以 这 两 个 任务 都 不 会 结束 自己 的 执行 过 程 。 


1.2.4 ”资源 不 足 


当 某 个 任务 在 系统 中 无 法 获取 维持 其 继续 执行 所 需 的 资源 时 ， 就 会 出 现 资源 不 足 。 当 有 多 个 任务 
在 等 待 其 一 资源 且 该 资源 被 释放 时 ， 系 统 需要 选择 下 一 个 可 以 使 用 该 资源 的 任务 。 如 果 你 的 系统 中 没 
有 设计 良好 的 算法 ,那么 系统 中 有 些 线程 很 可 能 要 为 获取 该 资源 而 等 待 很 长 时 间 。 
要 解决 这 一 问题 就 要 确保 公平 原则 。 所 有 等 待 某 一 资源 的 任务 必须 在 某 一 给 定时 间 之 内 占有 该 资 
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源 。 可 选 方案 之 一 就 是 实现 一 个 算法 ， 在 选择 下 一 个 将 占有 某 一 资源 的 任务 时 ， 对 任务 已 等 待 该 资源 
的 时 间 因 素 加 以 考虑 。 然 而 ， 实 现 锁 的 公平 需要 增加 额外 的 开销 ， 这 可 能 会 降低 程序 的 吞吐 量 。 


1.2.5 ”优先 权 反 转 


当 一 个 低 优先 权 的 任务 持 有 了 一 个 高 优先 级 任务 所 需 的 资源 时 , 就 会 发 生 优先 权 反 转 。 这样 的 话 ， 
低 优 先 权 的 任务 就 会 在 高 优先 权 的 任务 之 前 执行 。 


1.3 设计 并 发 算法 的 方法 论 


本 节 , 我 们 将 提出 一 个 五 步骤 的 方法 论 来 获得 某 一 串 行 算法 的 并 发 版 本 。 该 方法 论 基于 Intel 公司 
在 其 “Threading Methodology: Principles and Practices” 文 档 中 给 出 的 方法 论 。 


1.3.1 起 点 : 算法 的 一 个 串 行 版 本 


我 们 实现 并 发 算法 的 起 点 是 该 算法 的 一 个 串 行 版 本 。 当 然 ， 也 可 以 从 头 开 始 设 计 一 个 并 发 算法 。 
不 过 我 认为 ， 算 法 的 串 行 版 本 有 两 个 方面 的 好 处 。 

口 我 们 可 以 使 用 串 行 算法 来 测试 并 发 算法 是 否 生 成 了 正确 的 结果 。 当 接收 同样 的 输入 时 ， 这 两 
个 版 本 的 算法 必须 生成 同样 的 输出 结果 ， 这 样 我 们 就 可 以 检测 并 发 版 本 中 的 一 些 问题 ， 例 如 
数据 竞争 或 者 类 似 的 条 件 。 

口 我 们 可 以 度量 这 两 个 算法 的 吞吐 量 ， 以 此 来 观察 使 用 并 发 处 理 是 否 能 够 改善 响应 时 间或 者 提 
升 算法 一 次 性 所 能 处 理 的 数据 量 。 


1.3.2 第 1 步 : 分 析 


在 这 一 步 中 , 我 们 将 分 析 算 法 的 串 行 版 本 来 寻找 它 的 代码 中 有 哪些 部 分 可 以 以 并 行 方式 执行 。 我 
们 应 该 特别 关注 那些 执行 过 程 花费 时 间 最 多 或 者 执行 代码 较 多 的 部 分 , 因为 实现 这 些 部 分 的 并 发 版 本 
将 能 获得 较 大 的 性 能 改进 。 
对 这 一 过 程 而 言 ， 比 较 好 的 候选 方案 就 是 循环 排查 ， 让 其 中 的 一 个 步 又 独立 于 其 他 步骤 ,或 者 让 
其 中 某 些 部 分 的 代码 独立 于 其 他 部 分 的 代码 ( 例如 一 个 用 于 初始 化 某 个 应 用 程序 的 算法 ， 它 打开 与 数 
据 库 的 连接 ， 加 载 配置 文件 ， 初 始 化 一 些 对 象 。 所 有 这 些 前 期 任务 都 是 相互 独立 的 ) 


1.3.3 第 2 步 : 设计 


一 旦 你 知道 了 要 对 哪些 部 分 的 代码 并 行 处 理 ， 就 要 决定 如 何 对 其 进行 并 行 化 处 理 了 。 
代码 的 变化 将 影响 应 用 程序 的 两 个 主要 部 分 。 

口 代码 的 结构 。 

口 数据 结构 的 组 织 。 

你 可 以 采用 两 种 方式 来 完成 这 一 任务 。 
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口 任务 分 解 : 当 你 将 代码 划分 成 两 个 或 多 个 可 以 立刻 执行 的 独立 任务 时 ， 就 是 在 进行 任务 分 解 。 
其 中 有 些 任务 可 能 必须 按照 某 种 给 定 的 顺序 来 执行 ， 或 者 必须 在 同一 点 上 等 待 。 你 必须 使 有 
同步 机 制 来 实现 这 样 的 行为 。 

口 数据 分 解 : 当 使 用 同一 任务 的 多 个 实例 分 别 对 数据 集 的 一 个 子 集 进行 处 理 时 ， 就 是 在 进行 数 
据 分 解 。 该 数据 集 是 一 个 共享 资源 ， 因 此 ， 如 果 这 些 任务 需要 修改 数据 ， 那 你 必须 实现 一 个 
临界 段 来 保护 对 数据 的 访问 。 

另 一 个 必须 牢记 的 要 点 是 解决 方案 的 粒度 。 实 现 一 个 算法 的 并 发 版 本 ， 其 目标 在 于 实现 性 能 的 改 
善 ， 因 此 你 应 该 使 用 所 有 可 用 的 处 理 器 或 核 。 另 一 方面 ， 当 你 采用 某 种 同步 机 制 时 ， 就 引入 了 一 些 额 
外 的 必须 执行 的 指令 。 如 果 你 将 算法 分 割 成 很 多 小 任务 ( 细 粒 度 )， 实 现 同步 机 制 所 需 额外 引入 的 代 
码 就 会 导致 性 能 下 降 。 如 果 你 将 算法 分 割 成 比 核 数 还 少 的 任务 〈 粗 粒度 )， 那 么 就 没有 充分 利用 全 部 
资源 。 同 样 ， 你 还 要 考虑 每 个 线程 都 必须 要 做 的 工作 ， 尤 其 是 当 你 实现 细 粒 度 解 决 方案 时 。 如 果 某 个 
任务 的 执行 时 间 比 其 他 任务 长 ,那么 该 任务 将 决定 整个 应 用 程序 的 执行 时 间 。 你 需要 在 这 两 点 之 间 找 
到 平衡 。 


< 


1.3.4 第 3 步 : 实现 


下 一 步 就 是 使 用 某 种 编程 语言 来 实现 并 发 算法 了 ， 而 且 如 果 必 要 ， 还 要 用 到 线程 库 。 在 本 书 的 例 
子 中 ， 我 们 将 使 用 Java 语言 来 实现 所 有 算法 。 


1.3.5 第 4 步 : 测试 


在 完成 实现 过 程 之 后 ， 你 应 该 对 该 并 行 算法 进行 测试 。 如 果 你 有 了 算法 的 串 行 版 本 ,可 以 对 比 这 
两 个 版 本 算法 的 结果 ， 从 而 验证 并 行 版 本 是 否 正确 。 

测试 和 调试 一 个 并 行程 序 的 具体 实现 是 非常 困难 的 任务 , 因为 应 用 程序 中 不 同 任务 的 执行 顺序 是 
无 法 保证 的 。 在 第 12 章 中 ， 你 将 学 到 一 些 提 示 、 技 巧 和 工具 ， 从 而 可 以 高 效 地 完成 这 些 任 务 。 


1.3.6 第 5 步 : 调整 


最 后 一 步 是 对 比 并 行 算 法 和 串 行 算 法 的 吞吐 量 。 如 果 结 果 并 未 达到 预期 ,那么 你 必须 重新 审查 该 
算法 ， 查 找 造成 并 行 算法 性 能 较 差 的 原因 。 

你 也 可 以 测试 该 算法 的 不 同 参数 例如 任务 的 粒度 或 数量 )， 从 而 找到 最 佳 配置 。 

还 有 其 他 一 些 指 标 可 用 来 评估 通过 使 算法 并 行 处 理 可 能 获得 的 性 能 改进 。 下 面 给 出 的 是 最 常见 的 
三 个 指标 。 


口 加 速 比 “speedup): 这 是 一 个 用 于 评价 并 行 版 算法 和 串 行 版 算法 之 间 相 对 性 能 改进 情况 的 指标 。 


sequential 


Speedup = 


concurrent 


其 中 ，Teaeia 是 算法 串 行 版 的 执行 时 间 ， 而 Tooocwrent 是 算法 并 行 版 的 执行 时 间 。 
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口 Amdahl 定律 : 该 定律 用 于 计算 对 算法 并 行 化 处 理 之 后 可 获得 的 最 大 期 望 改进 。 也 | 
Speedup < 
(1 一 局 )+ 
N 


其 中 , P 是 可 以 进行 并 行 化 处 理 的 代码 的 百分比 , 而 入 是 你 准备 用 于 执行 该 算法 的 计算 机 的 核 数 。 
例如 , 如 果 你 可 以 对 75% 的 代码 进行 并 行 化 处 理 并 且 有 四 个 核 , 那么 最 大 加 速 比 可 按照 如 下 公 
式 进 行 计算 。 


1 


Speedup < 2.29 


三 
(0.75)+ [2 0 
口 Gustafson-Barsis 定律 ?: Amdahl 定律 具有 一 定 缺 陷 。 它 假 设 当 你 增加 核 的 数量 时 输入 数据 集 
是 相同 的 ,但 是 一 般 来 说 ， 当 拥有 更 多 的 核 时 ， 你 就 想 处 理 更 多 的 数据 。Gustafson 定律 认为 ， 
当 你 有 更 多 可 用 的 核 时 ， 可 同时 解决 的 问题 规模 就 越 大 ， 其 公式 如 下 
Speedup = P-ax(P-1) 

其 中 ,NN 为 核 数 ， 而 P 为 可 并 行 处 理 代码 所 占 的 百分比 。 
如 果 我 们 使 用 之 前 的 同一 示例 ， 那 么 Gustafson 定律 计算 出 的 可 伸缩 加 速 比 如 下 。 

Speedup = 4—0.25x(3)= 3.25 


1.3.7 ”结论 


在 本 节 中 ， 你 知晓 了 在 对 某 一 串 行 算法 进行 并 行 化 处 理 时 必须 考虑 的 问题 。 
首先 ， 并非 每 一 个 算法 都 可 以 进行 并 行 化 处 理 。 例 如 ， 如 果 你 要 执行 一 个 循环 ， 其 每 次 迭代 的 结 
果 取 决 于 前 一 次 迭代 的 结果 ， 那么 你 就 不 能 对 该 循环 进行 并 行 化 处 理 。 基 于 同样 的 原因 ， 递归 算法 是 
无 法 进行 并 行 化 处 理 的 另 一 个 例子 。 
你 要 牢记 的 男 一 重要 事项 是 : 对 性 能 良好 的 串 行 版 算法 实现 并 行 处 理 , 实际 上 是 个 糟糕 的 出 发 点 。 
如 果 在 你 开始 对 某 个 算法 进行 并 行 化 处 理 时 ,发现 并 不 容易 找到 代码 的 独立 部 分 , 那么 你 就 要 找 一 找 
该 算法 的 其 他 版 本 ， 并 且 验 证 一 下 该 版 本 的 算法 是 否 能 够 很 方便 地 进行 并 行 化 处 理 。 
最 后 ， 当 你 实现 一 个 并 发 应 用 程序 时 〈 从 头 开始 或 者 基于 一 个 串 行 算法 )， 必 须要 考虑 下 面 几 点 。 
D 效率 : 并 行 版 算法 花费 的 时 间 必 须 比 串 行 版 算法 少 。 对 算法 进行 并 行 处 理 的 首要 目标 就 是 实 
现 运行 时 间 比 串 行 版 算法 少 ， 或 者 说 它 能 够 在 相同 时 间 内 处 理 更 多 的 数据 。 
D 简单 : 当 你 实现 一 个 算法 〈 无 论 是 否 为 并 行 算 法 ) 时 ， 必 须 尽 可 能 确保 其 简单 。 它 应 该 更 加 
容易 实现 、 测 试 、 调 试 和 维护 ， 这 样 就 会 少 出 错 。 
口 可 移植 性 : 你 的 并 行 算法 应 该 只 需要 很 少 的 更 改 就 能 够 在 不 同 的 平台 上 执行 。 因 为 在 本 书 中 
使 用 Java 语言 ， 所 以 做 到 这 一 点 非常 简单 。 有 了 Java， 你 就 可 以 在 每 一 种 操作 系统 中 执行 程 
序 而 无 须 任 何 更 改 〈 除非 因为 程序 实现 而 必须 更 改 )。 


J 也 称 作 Gustafson 定律 。 一 一 译 者 注 
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和 Semaphore 等 类 ,以 及 
API。 


1.4.1 


口 伸缩 性 : 如 果 你 增加 了 核 的 数目 ， 算 法 会 发 生 什 么 情况 ? 正如 前 面 提 到 的 ， 你 应 该 使 用 所 有 


可 用 的 核 ， 这 样 一 来 你 的 算法 就 能 利用 所 有 可 


1.4 Java 并 发 API 


Java 编程 语言 含有 非常 丰富 的 并 发 API。 它 含有 管理 
用 于 实现 非常 高 层 同 步 机 


用 的 资源 。 


本 节 将 涵盖 形成 并 发 API 的 基本 类 。 


基本 并 发 类 
并 发 API 的 基本 类 如 下 。 


口 Runnable 接口 : 这 是 Java 


口 rhreag 类 : 该 类 描述 了 执行 并 发 Java 应 用 程序 的 所 有 线程。 
' 创 建 并 发 应 


用 程序 的 另 一 种 方式 。 


口 ThreadLocal 类 : 该 类 用 于 存放 从 属于 某 
口 ThreadFactory 接口 : 这 是 实现 Factory 设计 模式 的 基 类 ， 你 可 以 用 它 来 创建 定制 线程 。 


1.4.2 ”同步 机 制 


线程 的 变量 。 


基本 并 发 元 素 所 需 的 类 , 例如 Thread、Lock 
出 的 类 ， 例 如 执行 器 框架 或 新 增加 的 并 行 Stream 


Java 并 发 API 包括 多 种 同步 机 制 ， 可 以 支持 你 : 


下 面 是 最 重要 的 同步 机 制 。 


定义 一 个 临界 段 。 


不 同类 型 : ReentrantLock 


WriteLock 将 读 写 操作 分 离开 来 ; StampedLock 是 Java 8 


控制 读 / 写 访问 的 模式 。 


口 synchronized 关键 字 : synchronized 关键 字 人 允 廊 


口 Lock 接口 : Lock 提供 了 比 synchronized 关键 字 


口 定义 用 于 访问 某 一 共享 资源 的 临界 段 ; 
口 在 某 一 共同 点 上 同步 不 同 的 任务 。 


用 于 实现 


信号 量 。 


口 Semaphore 类 : 该 类 通过 实现 经 典 的 信和 号 量 机 人 


口 countDownLatch 类 : 该 类 人 允 计 
口 cyclicBarrier 类 : 该 类 人 允许 多 线程 在 某 
口 phaser 类 : 该 类 允许 你 控制 那些 分 割 成 多 个 阶段 的 任务 的 执行 。 玫 


一 个 任务 等 待 多 项 操作 的 结束 。 
共同 点 上 进行 同步 。 


F 你 在 某 个 代码 块 或 者 某 个 完整 的 方法 中 


更 为 灵活 的 同步 操作 。Lock 接口 有 多 种 
个 可 与 某 种 条 件 相 关联 的 锁 ; ReentrantRead- 
FP 增 加 的 一 种 新 特性 , 它 包括 三 种 


出 来 实现 同步 。Java 支持 二 进 制 信号 量 和 一 般 


之 前 ， 任 何 任务 都 不 能 进入 下 一 阶段 。 


E 所 有 任务 都 完成 当前 阶段 
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1.4.3 ”执行 器 


执行 器 框架 是 在 实现 并 发 任务 时 将 线程 的 创建 和 管理 分 割 开 来 的 一 种 机 制 。 你 不 必 担 心 线程 的 凶 
建 和 管理 ， 只 需要 关心 任务 的 创建 并 且 将 其 发 送 给 执行 器 。 该 框架 中 涉及 的 主要 类 如 下 。 
口 Executor 接口 和 ExecutorService 接口 : 它们 包含 了 所 有 执行 需 共 有 的 execute () 方 法 


务 的 最 大 数目 。 


行 任务 或 者 周期 性 执行 任务 。 

口 Bxecutors: 该 类 使 执行 器 的 创建 更 为 容易 。 

口 callable 接口 : 这 是 Runnable 接口 的 蔡 代 接口 一 一 可 返回 值 的 一 个 单独 的 任务 。 

口 Future 接口 : 该 接口 包含 了 一 些 能 获取 callapble 接口 返回 值 并 且 控制 其 状态 的 方法 。 


1.4.4 ”Fork/Join 框架 


口 ThreadPoolExecutor 类 : 该 类 允许 你 获取 一 个 含有 线程 池 的 执行 器 ， 而 且 可 以 定义 并 行 任 


| 


o 


口 scheduledThreadPoolExecutor 类 : 这 是 一 种 特殊 的 执行 器 ,可 以 使 你 在 某 段 延迟 之 后 执 


Fork/Join 框架 定义 了 一 种 特殊 的 执行 器 , 尤其 针对 采用 分 治 方法 进行 求解 的 问题 。 针 对 解决 这 类 
问题 的 并 发 任务 ， 它 还 提供 了 一 种 优化 其 执行 的 机 制 。Fork/Join 是 为 细 粒 度 并 行 处 理 量 身 定制 的 ， 
为 它 的 开销 非常 小 ,这 也 是 将 新 任务 加 入 队列 中 并 且 按 照 队 列 排序 执行 任务 的 需要 。 该 框架 涉及 的 主 


要 类 和 接口 如 下 。 

口 ForkJoinPool: 该 类 实现 了 要 用 于 运行 任务 的 执行 器 。 

口 ForkJoinTask: 这 是 一 个 可 以 在 ForkJoinPool 类 中 执行 的 任务 。 

口 ForkJoinWorkerThread: 这 是 一 个 准备 在 ForkJoinPool 类 中 执行 任务 的 线程 。 


1.4.5 ”并 行 流 


流 和 lambda 表达 式 可 能 是 Java 8 中 最 重要 的 两 个 新 特性 。 流 已 经 被 增加 为 collection 接口 和 


其 他 一 些 数据 源 的 方法 ， 它 允许 处 理 某 一 数据 结构 的 所 有 元 素 、 生 成 新 的 结构 、 筛 选 数据 和 使 用 


MapReduce 方 法 来 实现 算法 。 
并 行 流 是 一 种 特殊 的 流 , 它 以 一 种 并 行 方 式 实现 其 操作 。 使 用 并 行 流 时 涉及 的 最 重要 的 元 素 如 下 
口 stream 接口 : 该 接口 定义 了 所 有 可 以 在 一 个 流 上 实施 的 操作 。 
口 optional: 这 是 一 个 容器 对 象 ， 可 能 ( 也 可 能 不 ) 包含 一 个 非 空 值 。 
口 collectors: 该 类 实现 了 约 简 (reduction ) 操作 ， 而 该 操作 可 作为 流 操 作 序列 的 一 部 分 使 用 


表达 式 作 为 参数 ， 这 让 你 可 以 实现 更 为 紧凑 的 操作 。 


1.4.6 ”并 发 数据 结构 
Java API 中 的 常见 数据 结构 ( 例如 ArrayList、Hashtable 等 ) 并 不 能 在 并 发 应 用 程序 中 使 用 


O 


六 


D lambda 表达 式 : 流 被 认为 是 可 以 处 理 lambda 表达 式 的 。 大 多 数 流 方法 都 会 接收 一 个 lambda 


> 


A 太 
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除非 采用 某 种 外 部 同步 机 制 


。 但 是 如 果 你 采用 了 某 种 同步 机 制 ， 应 用 程序 就 会 增加 大 量 的 额外 计算 时 


间 。 而 如 果 你 不 采用 同步 机 制 , 那么 应 用 程序 中 很 可 能 出 现 竞 争 条件 。 如 果 你 在 多 个 线程 中 修改 数据 ， 


那么 就 会 出 现 竞 争 条 件 ， 你 


ArraylIndexOutOfBoundsi 


可 能 会 面 对 各 种 异常 (例如 concurrentModificationException 和 


Exception )， 出 现 隐 性 数据 丢失 ， 或 者 应 用 程序 会 陷入 死 循环 。 


Java 并 发 API 中 含有 大 
大 类 别 。 


口 非 阻塞 型 数据 结构 : 
值 或 者 抛 出 异常 。 


量 可 以 在 并 发 应 用 中 使 用 而 没有 风险 的 数据 结构 。 我 们 将 它们 分 为 以 下 两 


口 阻塞 型 数据 结构 : 这 些 数据 结构 含有 一 些 能 够 阻塞 调用 任务 的 方法 ， 例 如 ， 当 数据 结构 为 空 
而 你 又 要 从 中 获取 值 时 。 


如 果 操 作 可 以 立即 进行 ， 它 并 不 会 阻塞 调用 任务 。 否 则 ， 它 将 返回 null 


下 面 是 其 中 的 一 些 数据 结构 。 


口 ConcurrentLinkedDeque: 这 是 一 个 非 阻塞 型 的 列表 。 
口 concurrentLinkedoueue: 这 是 一 个 非 阻 塞 型 的 队列 。 


口 LinkedBlockingDeque: 
口 LinkedBlockingQueue: 
口 PriorityBlockingoueue: 这 是 一 个 基于 优先 级 对 元 素 进 行 排序 的 阻塞 型 队列 。 
口 ConcurrentSkipListMap: 这 是 一 个 非 阻塞 型 的 NavigableMap。 

口 concurrentHashMap: 这 是 一 个 非 阻塞 型 的 哈 希 表 。 


是 一 个 阻塞 型 的 列表 。 
是 一 个 阻塞 型 的 队列 。 


这 
这 


口 AtomicBoolean、AtomicInteger、AtomicLong 和 AtomicReference: 这 些 是 基本 Java 


数据 类 型 的 原子 实现 。 
1.5 并 发 设计 模式 
在 软件 工程 中 ,设计 模式 是 针对 某 一 类 共同 问题 的 解决 方案 。 这 种 解决 方案 被 多 次 使 用 ， 而 且 已 


经 被 证 明 是 针对 该 类 问题 的 最 优 解决 方案 。 每 当 你 需要 解决 这 其 中 的 某 个 问题 ,就 可 以 使 用 它们 来 避 
免 做 重复 工作 。 其 中 ， 单 例 模式 ( Singleton ) 和 工厂 模式 (Factory ) 是 几乎 每 个 应 用 程序 中 都 要 用 到 


的 通用 设计 模式 。 


并 发 处 理 也 有 其 自己 的 设计 模式 。 本 闻 ,我 们 将 介绍 一 些 最 常用 的 并 发 设计 模式 , 以 及 它们 的 Java 


语言 实现 。 


1.5.1 信号 模式 


这 种 设计 模式 介绍 了 如 何 实现 某 一 任务 向 另 一 任务 通告 某 一 事件 的 情形 。 实 现 这 种 设计 模式 最 简 
单 的 方式 是 采用 信号 量 或 者 互 斥 ， 使 用 Java 语言 中 的 ReentrantLock 类 或 Semaphore 类 即 可 ， 甚 


至 可 以 采用 object 类 中 的 
请 看 下 面 的 例子 。 


wait () 方 法 和 notify () 方 法 。 
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public void task1() { 
section] (); 
commonObject .notify(); 


} 


public void task2() { 
commonObject .wait (); 
section2 () ; 


于 
在 上 述 情况 下 ，section2 () 方 法 总 是 在 sectionl () 方 法 之 后 执行 。 


1.5.2 会合 模式 


这 种 设计 模式 是 信号 模式 的 推广 。 在 这 种 情况 下 ， 第 一 个 任务 将 等 待 第 二 个 任务 的 某 一 事件 ， 而 
第 二 个 任务 又 在 等 待 第 一 个 任务 的 某 一 事件 。 其 解决 方案 和 信和 号 模式 非常 相似 , 只 不 过 在 这 种 情况 下 ， 
你 必须 使 用 两 个 对 象 而 不 是 一 个 。 

请 看 下 面 的 例子 。 


public void task1() { 
Section1l1 1(); 
commonObjectl1 .notify(); 
commonObject2 .wait(); 
Section1 2(); 


} 

public void task2() { 
section2_1(); 
commonObject2.notify(); 
commonObject1 .wait (); 
Setlion2. 2 ()y 


} 


在 上 述 情况 下 ，section2_2() 方 法 总 是 会 在 section1_1() 方 法 之 后 执行 , 而 section1_2 () 
方法 总 是 会 在 section2_1() 方 法 之 后 执行 。 和 仔细 想 想 就 会 发 现 ， 如 果 你 将 对 wait () 方 法 的 调用 放 
在 对 notify () 方 法 的 调用 之 前 ， 那 么 就 会 出 现 死 锁 。 


1.5.3 互 斥 模式 


互 斥 这 种 机 制 可 以 用 来 实现 临界 段 ， 确 保 操 作 相互 排斥 。 这 就 是 说 ， 一 次 只 有 一 个 任务 可 以 执行 
由 互 斥 机 制 保护 的 代码 片段 。 在 Java 中 ， 你 可 以 使 用 synchronizeqd 关键 字 (这 人 允许 你 保护 一 段 代 
个 或 者 一 个 完整 的 方法 )、ReentrantLock 类 或 者 Semaphore 类 来 实现 一 个 临界 段 。 
让 我 们 看 看 下 面 的 例子 。 
public voidq task() { 
preCriticalSection(); 
try { 
lockObject.lock() // 临界 段 开始 


CritioalSeetlionmt)s 
} catch (Exception e) { 
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} finally { 
lockObject.unlock(); // 临界 段 结束 
postCriticalSection(); 


1.5.4 多 元 复 用 模式 


多 元 复 用 设计 模式 是 互 斥 机 制 的 推广 。 在 这 种 情形 下 ， 规 定数 目的 任务 可 以 同时 执行 临界 段 。 这 
很 有 用 ,例如 ， 当 你 拥有 某 一 资源 的 多 个 副本 时 。 在 Java 中 实现 这 种 设计 模式 最 简单 的 方式 是 使 用 
Semaphore 类 ， 并且 使 用 可 同时 执行 临界 段 的 任务 数 来 初始 化 该 类 。 

请 看 如 下 示例 。 


public void task() { 
preCriticalSection(); 
semaphoreObject.acquire(); 
criticalSection(); 
semaphoreObject.release(); 
postCriticalSection(); 


1.5.5 ”栅栏 模式 

这 种 设计 模式 解释 了 如 何在 某 一 共同 点 上 实现 任务 同步 的 情形 。 每 个 任务 都 必须 等 到 所 有 任务 
都 到 达 同 步 点 后 才能 继续 执行 。Java 并 发 API 提供 了 cyclicBarrier 类 ， 它 是 这 种 设计 模式 的 一 
个 实现 。 


请 看 下 面 的 例子 。 

public voidq task() { 
preSyncpoint (); 
barrierObject.await () ; 
postSyncPoint () ; 


} 


1.5.6 ”双重 检查 锁定 模式 


当 你 获得 某 个 锁 之 后 要 检查 某 项 条 件 时 ， 这 种 设计 模式 可 以 为 解决 该 问题 提供 方案 。 如 果 该 条 件 
为 假 ， 你 实际 上 也 已 经 花费 了 获取 到 理想 的 锁 所 需 的 开销 。 对 象 的 延迟 初始 化 就 是 针对 这 种 情形 的 例 
子 。 如 果 你 有 一 个 类 实现 了 单 例 设 计 模 式 ， 那 可 能 会 有 如 下 这 样 的 代码 。 


public class Singletont{ 
private static Singleton reference; 
private static final Lock lock=new ReentrantLock(); 


public static Singleton getReference() { 
try { 
lock.lock(); 


1.5 并 发 设计 模式 13 


if (reference==null) { 
reference=new Object (); 
} 
} catch (Exception e) { 
System.out .printiln(e); 
} finally { 
lock.unlock(); 


return reference; 
jy 
} 


一 种 可 能 的 解决 方案 就 是 在 条 件 之 中 包含 锁 。 


public class Singletont{ 
private Object reference; 
private Lock lock=new ReentrantLock(); 
public Object getReference() { 
if (reference==null) { 
lock.1lock(); 
if (reference == null) { 
reference=new Object (); 


} 
lock.unlock(); 


return reference; 
lj 
} 


该 解决 方案 仍然 存在 问题 。 如 果 两 个 任务 同时 检查 条 件 ， 你 将 要 创建 两 个 对 象 。 解决 这 一 问题 的 
最 佳 方案 就 是 不 使 用 任何 显 式 的 同步 机 制 。 


public class Singleton { 


private static class LazySingleton { 
private static final Singleton INSTANCE = new Singleton(); 


public static Singleton getSingleton() { 
return LazySingleton.INSTANCE; 
} 


1.5.7” 读 - 写 锁 模式 


当 你 使 用 锁 来 保护 对 某 个 共享 变量 的 访问 时 ， 只 有 一 个 任务 可 以 访问 该 变量 ， 这 和 你 将 要 对 该 变 
量 实施 的 操作 是 相互 独立 的 。 有 时 , 你 的 变量 需要 修改 的 次 数 很 少 , 却 需要 读 取 很 多 次 。 这 种 情况 下 ， 
锁 的 性 能 就 会 比较 差 了 ， 因 为 所 有 读 操 作 都 可 以 并 发 进行 而 不 会 带 来 任何 问题 。 为 解决 这 样 的 问题 ， 
出 现 了 读 - 写 锁 设 计 模式 。 这 种 模式 定义 了 一 种 特殊 的 锁 ， 它 含有 两 个 内 部 锁 : 一 个 用 于 读 操 作 ， 而 
另 一 个 用 于 写 操作 。 该 锁 的 行为 特点 如 下 所 示 。 
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口 如 果 一 个 任务 了 


口 如 果 一 个 任务 正在 执行 写 操作 而 


操作 。 


有 的 读 取 方 都 完成 操作 为 止 。 


阻塞 ， 直 到 写 人 方 完成 操作 为 止 。 


另 一 他 


口 如 果 一 个 任务 正在 执行 读 操作 而 另 一 任务 想 要 进行 写 操作 ， 那 么 另 一 人 


E 在 执行 读 操作 而 另 一 任务 想 要 进行 另 一 个 读 操 作 ， 那 么 另 一 人 


F 务 可 以 进行 该 


F 务 将 被 阻塞 ， 直 到 所 


E 务 想 要 执行 男 一 操作 ( 读 或 者 写 )， 那 么 另 一 任务 将 被 


Java 并 发 API 中 含有 ReentrantReadWriteLock 类 ,该 类 实现 了 这 种 设计 模式 。 如 果 你 想 从 头 


开始 实现 该 设计 模式 ， 就 必须 非常 注意 读 人 
写 任务 等 待 的 时 


1.5.8 


这 种 设计 模式 试图 减少 为 执行 每 个 人 
待 执 行 的 任务 队列 构成 。 线 程 集合 通常 


Java 并 发 API 包含 一 些 实现 ExecutorService 接口 


1.5.9 


这 种 设计 模式 定义 了 如 何 使 


间 就 会 很 长 。 


线程 池 模 式 


E 务 和 写 任务 之 间 的 优先 级 。 如 明 


FE 务 而 创建 线程 所 引入 的 开销 。 该 模式 


线程 局 部 存储 模式 


RR 有 太 多 读 任 务 存在 ,那么 


个 线程 集合 和 


具有 固定 大 小 。 当 一 个 线程 完成 了 某 个 任务 的 执行 时 ， 它 本 身 
并 不 会 结束 执行 ， 它 要 寻找 队列 中 的 另 一 个 任务 。 如 果 存 在 另 一 个 任务 ， 那 么 它 将 执行 该 任务 。 如 果 
不 存在 另 一 个 任务 , 那么 该 线程 将 一 直 等 待 , 直到 有 任务 搬入 队列 


企 


' 为 止 , 但 是 线程 本 身 不 会 被 终结 。 


的 类 ， 该 接 


j 局 部 从 


属性 时 ,那么 该 类 的 所 有 对 象 都 会 访问 该 
会 访问 该 变量 的 一 个 不 同 实例 。 
Java 并 发 API 包含 了 ThreadLocal 类 ， 该 类 实现 了 这 种 设计 模式 。 


设计 并 发 算法 的 提示 和 技巧 


1.6 


本 节 汇 编 了 一 些 需 要 你 牢记 的 提示 和 技巧 ， 它 们 可 以 帮助 你 设计 出 良好 的 并 发 应 月 


1.6.1 


你 只 能 执行 那些 相互 独立 的 并 发 任务 。 如 果 两 个 或 多 个 任务 之 间 存 在 某 种 顺序 依赖 ， 你 可 能 
趣 尝试 以 并 发 方式 执行 它们 ， 同 时 引入 某 种 同步 机 制 来 保证 执行 顺序 。 这 些 任务 将 以 串 行 方式 执行 ， 
有 同步 机 制 。 另 一 种 不 同 的 场景 是 ,你 的 任务 具有 一 些 先决 条 件 , 但 是 这 些 先决 条 件 都 


而 你 还 必须 使 月 
是 相互 独立 的 。 在 这 种 情形 下 ， 你 可 以 以 并 发 方式 执行 这 些 先决 条 件 ， 然 后 在 完成 先决 条 件 后 使 


正确 识别 独立 任务 


届 于 任务 的 全 局 变量 或 静态 变量 。 


口内 部 采用 了 一 个 线程 池 。 


当 帮 


E 菜 个 类 


:有 一 个 静态 


如 性 的 同一 存在 。 如 果 使 


j 了 线程 局 部 存储 ， 则 每 个 线程 都 


程序 。 


个 同步 类 来 控制 任务 的 执行 。 


男 一 个 无 法 使 用 并 发 处 天 


的 场景 是 ， 你 有 一 个 循环 ， 而 所 有 步骤 所 使 


骤 生 成 的 ， 或 者 存在 一 些 需要 从 一 个 步 又 流转 到 下 一 步骤 的 状态 信息 。 


没 兴 


用 


用 的 数据 都 是 由 它 之 前 的 步 


1.6 设计 并 发 算法 的 提示 和 技巧 
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1.6.2 ”在 尽 可 能 高 的 层面 上 实施 并 发 处 理 


像 Java 并 发 API 这 样 丰 富 的 线程 处 理 API, 为 你 在 应 用 程序 


实现 并 发 处 理 提供 了 不 同 的 类 。 对 


于 Java 来 说 , 你 可 以 使 用 Thread 类 或 Lock 类 来 控制 线程 的 创建 和 同步 , 不 过 Java 也 提供 了 高 层次 
的 并 发 处 理 对 象 ,例如 执行 器 或 Fork/Join 框架 , 它们 都 可 以 支持 你 执行 并 发 任务 。 这 种 高 层 机 制 有 下 


述 好 处 。 


助 你 控制 线程 的 创建 和 管理 。 


| 


口 你 不 需要 担心 线程 的 创建 和 管理 ， 只 需要 创建 并 且 发 送 人 有 


E 务 以 使 其 执行 。Java 并 发 API 会 帮 


口 它们 都 经 过 了 优化 ， 可 以 比 直接 使 用 线程 提供 更 好 的 性 能 。 例 如 ， 它 们 使 用 了 一 个 线程 池 ， 


可 对 线程 进行 重用 ， 避 免 了 为 每 个 任务 都 创建 线程 。 你 可 以 从 头 开始 实 现 这 些 机 制 ， 但 是 这 


会 花费 你 大 量 的 时 间 ， 而 且 这 也 是 一 项 复杂 的 任务 。 


口 它们 含有 一 些 高 级 特性 ,可 以 使 API 更 加 强大 。 例 如 ,有 了 


口 你 的 应 用 程序 很 容易 从 一 个 操作 系统 被 迁移 到 为 一 个 ， 


而 且 JVM 优化 也 会 更 加 适合 于 JDK API。 


Java 中 的 执行 器 ,你 可 以 执行 以 Future 


而 且 它 将 具有 更 好 的 伸缩 性 。 


对 象形 式 返回 结果 的 任务 。 同 样 ， 你 也 可 以 从 头 开始 实现 这 些 机 制 ， 但 是 并 不 建议 这 样 做 。 


口 你 的 应 用 程序 在 今后 的 Java 版 本 中 可 能 会 更 加 快速 。Java 开发 人 员 一 直 都 在 改进 内 部 构件 ， 


总 之 ， 出 于 性 能 和 开发 时 间 方面 的 原因 ,在 实现 并 发 算法 之 前 ， 要 分 析 一 下 线程 API 提供 的 高 层 


机 制 。 


1.6.3 ”考虑 伸缩 性 


若是 要 实现 一 个 并 发 算法 ， 主 要 目标 之 一 就 是 要 利用 计算 机 的 全 部 资源 ,尤其 是 要 充分 利用 处 理 
器 或 者 核 的 数目 。 但 是 这 个 数目 可 能 会 随时 间 推 移 而 发 生变 化 。 


都 在 降低 。 


硬件 是 不 断 改进 的 ， 而 且 其 成 本 每 年 


当 你 使 用 数据 分 解 来 设计 并 发 算法 时 ， 不 要 预先 假定 应 用 程序 要 在 多 少 个 核 或 者 处 理 器 上 执行 。 
要 动态 获取 系统 的 有 关 信 息 (例如 ， 在 Java 中 可 以 使 用 Runtime.getRuntime () .available- 


Processors () 方 法 来 获取 信息 ), 并 且 让 你 的 算法 使 用 这 些 信 ; 


会 给 算法 执行 时 间 带 来 额外 开销 ， 但 是 你 的 算法 将 有 更 好 的 伸缩 性 。 
如 果 你 使 用 任务 分 解 来 设计 并 发 算法 ， 情 况 就 会 更 加 复杂 。 你 要 根据 算法 中 独立 任务 的 数目 来 设 


计 ， 而 且 强 制 执行 较 多 的 任务 将 会 增加 由 同步 机 制 引 入 的 开销 ， 
糕 。 要 详细 分 析 算 法 来 判断 是 否 要 采用 动态 的 任务 数 。 


1.6.4 ”使 用 线程 安全 API 


息 来 计算 它 要 执行 的 任务 数 。 这 个 过 程 


而 且 应 用 程序 的 整体 性 能 甚至 会 更 精 


如 果 你 需要 在 并 发 应 用 程序 中 使 用 某 个 Java 库 ， 首 先 要 阅读 其 文档 以 了 解 该 库 是 否 为 线程 安全 


的 。 如 果 它 是 线程 安全 的 ， 那么 你 可 以 在 自己 的 应 用 程序 中 使 


用 它 而 不 会 出 现任 何 问题 。 如 与 


线程 安全 的 ， 那 么 你 有 如 下 两 个 选择 。 


它 不 是 
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要 用 
实现 


口 如 果 已 经 存在 一 个 线程 安全 的 替代 方案 ， 那 么 就 应 该 使 用 该 替代 方案 。 


形 ， 尤 其 是 数据 竞争 条 件 。 


例如 ， 如 玉 


口 如 果 不 存在 线程 安全 的 替代 方案 ， 就 应 该 添加 必要 的 同步 机 制 来 避免 所 有 可 能 出 现 问题 的 情 


你 在 并 发 应 用 程序 中 需要 用 到 一 个 List， 且 需要 在 多 个 线程 中 对 其 更 新 ， 那 么 就 不 
应 该 使 用 arrayList 类 ， 因 为 它 不 是 线程 安全 的 。 在 这 种 情况 下 ， 你 可 以 使 用 一 个 线程 安全 的 类 ， 
例如 ConcurrentLinkedDequ 


、CopyOnWriteArrayList 或 者 LinkedBlockingDequeo 如 果 你 


的 类 不 是 线程 安全 的 ， 你 必须 首先 查找 一 个 线程 安全 的 替代 方案 。 采 用 并 发 API 很 可 能 比 你 所 能 
的 任何 替代 方案 都 更 加 优化 。 


1.6.5 ” 绝 不 要 假定 执行 顺序 


顺序 是 否 相 同 。 下 一 次 执行 时 | 


如 果 你 不 采用 任何 同步 机 
序 以 及 每 个 任务 执行 的 时 间 ， 是 


假定 茶 一 执行 ) 


出， 那么 在 并 发 应 用 程序 中 任务 的 执行 顺序 是 不 确定 的 。 任 务 执行 的 顺 
1 操作 系统 的 调度 带 所 决定 的 。 在 多 次 执行 时 ， 调 度 絮 并 不 关心 执行 
抽 序 可 能 就 不 同 了 。 
贰 序 的 结果 通常 会 导致 数据 竞争 问题 。 算 法 的 最 终结 果 取 决 于 任务 执行 的 顺序 。 有 


时 ， 结 果 可 能 是 正确 的 ， 但 在 其 他 时 候 可 能 是 错误 的 。 检 测 导 致 数据 竞争 条 件 的 原因 非常 困难 ， 因 此 


你 必须 小 心 谨慎 ,不 要 忘记 所 有 必须 进行 同步 的 元 素 。 


1.6. 


6 在 静态 和 共享 场合 尽 可 能 使 用 局 部 线程 变量 


线程 局 部 变量 是 一 种 特殊 的 变量 。 每 个 任务 针对 该 变量 都 有 一 个 独立 的 值 ， 这 样 你 就 不 需要 任何 
同步 机 制 来 保护 对 该 变量 的 访问 。 
这 听 起 来 有 些 奇怪 。 对 于 该 类 的 各 个 属性 ， 每 个 对 象 都 有 自己 的 一 个 副本 ,那么 为 什么 我 们 还 需 
要 线程 局 部 变量 呢 ? 试想 这 样 的 场景 : 你 创建 了 一 个 Runnaple 任务 , 而 且 你 也 想 执行 该 任务 的 多 个 


实例 。 你 可 以 为 要 执行 的 每 个 线程 都 创建 一 个 Runnable 对 象 ， 但 另 一 个 可 选 方案 是 创建 一 个 


Runnable 对 象 并 是 使 用 该 对 象 创 到 


一 副 


太 属 


E 
[EN 


程 都 


市 请 


通常 ， 


E 所 有 线程 。 在 后 一 种 情况 中 ， 所 有 线程 都 将 访问 该 类 各 属性 的 同 


本 , 除非 你 使 用 ThreadLocal 类 。ThreadLocal 类 确保 了 每 个 线程 都 将 访问 自己 针对 该 变量 的 
实例 ， 而 不 需要 使 用 Lock 类 、semaphore 类 或 者 类 似 的 类 。 


另 一 种 场景 是 ， 你 所 使 用 的 Threag 局 部 变量 带 有 静态 属性 。 此 时 ， 类 的 所 有 实例 都 会 共享 
它们 。 在 使 用 ThreadLocal 类 声明 的 情况 下 ， 每 个 线 


性 ， 除 非 你 使 用 ThreadLocal 类 来 声 H 


访问 其 自己 的 副本 。 
另 一 个 可 选 方案 是 使 有 


(Thread.currentThread 


月 ConcurrentH 


() ) 或 var.put 


其 静 


ashMap<Thread, MyType> 这 样 的 方式 ， 像 var.get 
Thread.currentThread()，newvValue) 这 样 使 用 它 。 


由 于 可 能 出 现 竞 争 , 这 种 方式 要 比 采 用 


Threadl 


Local 的 方式 明显 慢 一 些 (采用 ThreadLocal 


根本 就 没有 竞争 )。 不 过 这 种 方式 也 有 其 优点 : 你 可 以 完全 清空 哈 希 表 ， 这 样 对 每 个 线程 来 说 其 中 的 
值 都 会 消失 。 因 此 ， 采 用 这 种 方式 有 时 也 是 有 用 的 。 
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1.6.7 ”寻找 更 易于 并 行 处 理 的 算法 版 本 
我 们 将 算法 定义 为 解决 某 一 问题 的 一 系列 步 又。 解决 同一 问题 可 以 有 许多 方式 。 有 些 方式 速度 更 


快 ， 有 些 方式 使 用 的 资源 更 少 ， 还 有 一 些 方式 能 够 更 好 地 适应 输入 数据 的 特定 特征 。 例 如 ， 如 果 你 想 
要 对 一 组 数 排序 ， 可 以 使 用 已 实现 的 多 种 排序 算法 之 一 来 解决 问题 。 
在 前 一 节 中 ， 我 们 推荐 你 使 用 串 行 版 算法 作为 实现 并 发 算法 的 起 点 。 这 种 方式 主要 有 两 个 优点 。 


口 很 容易 测试 并 行 算法 结果 的 正确 性 。 
口 可 以 度量 采用 并 发 处 理 后 获得 的 ' 


能 提升 。 


但 是 并 非 每 个 算法 都 可 以 并 行 化 处 理 ， 至 少 并 不 那么 容易 。 你 可 能 认为 最 好 的 起 点 是 解决 待 并行 
处 理 的 问题 的 性 能 最 佳 的 串 行 算法 ， 但 这 是 一 种 错误 的 假设 。 你 应 该 寻找 更 容易 并 行 化 的 算法 ， 然 后 
将 该 并 发 算法 和 其 性 能 最 佳 的 串 行 版 本 对 比 ， 看 看 哪个 可 以 提供 更 高 的 吞吐 量 。 
1.6.8 尽 可 能 使 用 不 可 变 对 象 

在 并 发 应 用 程序 中 遇 到 的 一 个 主要 问题 就 是 数据 竞争 条 件 。 前 文 已 经 提 到 ， 如 果 两 个 或 多 个 任务 


能 修改 在 某 个 共享 变量 中 存放 的 数据 ,， 却 没有 在 临界 段 中 实现 对 该 变量 的 访问 ， 就 会 发 生 数据 苋 争 条 


件 这 样 的 情况 。 


例如 ， 当 你 使 用 Java 这 样 的 面向 对 象 的 语言 时 ,可 以 将 应 用 程序 作为 一 个 对 象 集合 来 实现 。 每 个 对 
象 都 有 一 些 属性 ， 还 有 一 些 方法 用 来 读 取 和 更 改 这 些 属 性 的 值 。 如 果 有 些 任务 共享 了 某 个 对 象 , 那么 当 
你 调用 某 个 没有 同步 机 制 保护 的 方法 来 更 改 该 对 象 某 个 属性 的 值 时 ， 就 很 可 能 会 出 现 数据 不 一 致 问题 。 


有 一 些 特殊 的 对 象 叫 作 不 可 变 对 


象 ， 其 主要 特征 是 初始 化 之 后 你 不 能 对 其 任何 属性 进行 修改 。 如 


果 你 想 要 修改 某 一 属性 的 值 ， 必 须 创 建 另 一 个 对 象 。Java 中 的 string 类 是 不 可 变 对 象 的 最 佳 例子 。 


当 你 使 用 某 种 看 起 来 会 改变 string 


对 象 值 的 运算 符 (例如 = 或 += ) 时 ， 实 际 上 创建 了 一 个 新 的 对 象 。 


在 并 发 应 用 程序 中 使 用 不 可 变 对 
D 不 需要 任何 同步 机 制 来 保护 这 些 类 的 方法 。 如 果 两 个 任务 要 修改 同一 对 象 ， 它 们 将 创建 新 的 
对 象 ， 因 此 绝 不 会 出 现 两 个 任务 同时 修改 同一 对 象 的 情况 。 


口 不 会 有 任何 数据 不 一 致 问题 ， 


不 可 变 对 象 存在 一 个 缺点 。 如 果 你 创建 了 太 多 的 对 象 , 可 能 会 影响 应 用 程序 的 吞吐 量 和 内 存 使 用 。 


象 有 如 下 两 个 非常 重要 的 好 处 。 


因为 这 是 第 一 点 的 必然 结果 。 


如 果 你 有 一 个 没有 内 部 数据 结构 的 简单 对 象 ， 将 其 作为 不 可 变 对 象 通常 是 没有 问题 的 。 然 而 ， 构 造 由 


其 他 对 象 集合 整合 而 成 的 复杂 不 可 变 


对 象 通常 会 导致 严重 的 性 能 问题 。 


1.6.9 通过 对 锁 排序 来 避免 死 锁 


在 并 发 应 用 程序 中 避免 死 锁 的 最 佳 机 制 之 一 是 强制 要 求 任务 总 是 以 相同 顺序 获取 资源 。 实 现 这 种 
机 制 的 一 种 简单 方式 是 为 每 个 资源 都 分 配 一 个 编号 。 当 一 个 任务 需要 多 个 资源 时 ， 它 需要 按照 顺序 来 


请 求 。 
例如 ， 你 有 两 个 任务 T1 和 T2， 


它们 都 需要 两 项 资源 R1 和 R2， 你 可 以 强制 它们 首先 请 求 R1 资 
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源 然后 请 求 R2 资源 ， 这 样 就 不 会 发 生死 锁 。 
另 一 方面 ， 如 果 T1 首先 请 求 了 R1 资源 然后 请 求 R2 资源 ， 并 且 T2 首先 请 求 了 R2 资源 然后 请 求 
R1 资源 ， 那 么 就 会 发 生死 锁 。 
这 一 技巧 的 一 种 错误 使 用 如 下 所 示 。 你 有 两 个 任务 都 需要 获得 两 个 Lock 对 象 ， 它 们 都 试图 以 不 
同 顺序 来 获取 锁 。 


public voidq operation1() { 
lockl.lock(); 
lock2.1lock(); 


} 

public void operation2() { 
lock2.1lock(); 
lockl.lock(); 

} 


可 能 operation1 () 方 法 执行 了 它 的 第 一 条 语句 , 而 operation2 () 方 法 也 执行 了 它 的 第 一 条 语 
句 ， 这 样 它们 都 将 等 待 另 一 个 锁 ， 也 就 发 生 了 死 锁 。 


只 要 按照 同样 的 顺序 获取 锁 ， 就 可 以 避免 这 一 点 。 如 果 按 照 下 述 代 码 更 改 operation2 () 方 法 ， 
就 绝 不 会 发 生死 锁 。 
public void operation2() { 
lockl.lock(); 
lock2.1lock(); 


} 


1.6.10 ”使 用 原子 变量 代替 同步 


当 你 要 在 两 个 或 者 多 个 任务 之 间 共 享 数据 时 ， 必 须 使 用 同步 机 制 来 保护 对 该 数据 的 访问 ， 并 且 避 
免 任 何 数据 不 一 致 问题 。 

某 些 情况 下 ,你 可 以 使 用 volatile 关键 字 而 不 使 用 同步 机 制 。 如 果 只 有 一 个 任务 修改 数据 而 其 
他 任务 都 读 取 数 据 , 那么 你 可 以 使 用 volatile 关键 字 而 无 须 任 何 同步 机 制 , 并 且 不 会 出 现 数据 不 一 
致 问 题 。 在 其 他 场合 ， 你 需要 使 用 锁 、synchronized 关键 字 或 者 其 他 同步 方法 。 

在 Java5 中 ,并 发 API 中 有 一 种 新 的 变量 ， 叫 作 原 子 变 量 。 这 些 变 量 都 是 在 单个 变量 上 支持 原子 
操作 的 类 。 它 们 含有 一 个 名 为 compareAndSset (oldvalue，newvValue) 的 方法 ,该 方法 具有 一 种 机 
制 ， 可 用 于 探测 某 个 步 又 中 将 新 值 赋 给 变量 的 操作 是 否 完成 。 如 果 变 量 的 值 等 于 ol dvalue， 那 么 该 
方法 将 变量 的 值 更 改 为 newvalue 并 且 返 回 true。 否则 ， false。 以 类 似 方 式 工作 的 方 
法 还 有 很 多 ,例如 getAndIncrement () 和 getAndDecrement () 等 。 这 些 方法 也 都 是 原子 的 。 

该 解决 方案 是 免 锁 的 ， 也 就 是 说 不 需要 使 用 锁 或 者 任何 同步 机 制 ， 因 此 它 的 性 能 比 任何 采用 同步 
机 制 的 解决 方案 要 好 。 
在 Java 中 可 用 的 最 重要 的 原子 变量 有 如 下 几 种 : 


D AtomicInteger 


口 AtomicLong 
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DQ AtomicReference 
DQ AtomicBoolean 
D LongAdder 

D DoubleAdder 


1.6.11 占有 锁 的 时 间 尽 可 能 短 


和 其 他 所 有 同步 机 制 一 样 ， 锁 允许 你 定义 一 个 临界 段 ， 一 次 只 有 一 个 任务 可 以 执行 。 当 一 个 任务 
执行 该 临界 段 时 ， 其 他 要 执行 临界 段 的 任务 都 将 被 阻塞 并 且 要 等 待 该 临界 段 被 释放 。 这 样 ， 该 应 用 程 
序 其 实 是 以 串 行 方式 来 工作 的 。 

你 要 特别 注意 临界 段 中 的 指令 ， 因 为 如 果 不 了 解 它 的 话 会 降低 应 用 程序 的 性 能 。 你 必须 将 临界 段 
定制 得 尽 可 能 小 ,而且 它 必须 仅 包含 处 理 与 其 他 任务 共享 的 数据 的 指令 ， 这 样 应 用 程序 花费 在 串 行 处 
理 上 的 时 间 就 会 最 少 。 

避免 在 临界 段 中 执行 你 无 法 控制 的 代码 。 例 如 , 你 写 了 一 个 库 , 它 接收 一 个 用 户 自 定义 的 callable 
对 象 作 为 参数 ,但 是 该 对 象 有 时 候 需 要 由 你 启动 ， 而 你 并 不 知道 该 callable 对 象 中 到 底 有 什么 。 也 
许 它 会 阻塞 输入 /输出 、 获 取 某 些 锁 、 调 用 你 库 中 的 其 他 方法 , 或 者 只 是 需要 处 理 很 长 一 段 时 间 。 因此 ， 
如 果 可 能 的 话 ， 在 你 的 库 并 不 占有 任何 锁 时 ， 再 尝试 执行 这 些 代 码 。 如 果 对 你 的 算法 来 说 不 可 能 做 到 
这 一 点 ， 就 在 该 库 的 文档 中 说 明 这 一 情况 ， 并 且 尽 可 能 说 明 对 用 户 提供 的 代码 的 限制 (例如 ， 这 些 代 
人 码 不 应 该 加 任何 锁 )。 一 个 很 好 的 例子 就 是 concurrentHashMap 类 的 compute () 方 法 的 文档 说 明 。 


1.6.12 ”谨慎 使 用 延迟 初始 化 


延迟 初始 化 就 是 将 对 象 的 创建 延迟 到 该 对 象 在 应 用 程序 中 首次 使 用 时 的 一 种 机 制 。 它 的 主要 优点 
是 可 以 使 内 存 使 用 最 小 化 ， 因 为 你 只 需要 创建 实际 需要 的 对 象 。 但 是 在 并 发 应 用 程序 中 它 也 可 能 引发 
问题 。 

如 果 你 使 用 某 个 方法 初始 化 某 一 对 象 ， 并 且 该 方法 同时 被 两 个 不 同 的 任务 调用 ,那么 你 可 以 初始 
化 两 个 不 同 的 对 象 。 但 是 这 可 能 会 带 来 问题 ( 例如 对 单 例 模式 的 类 来 说 )， 因 为 你 只 想 为 这 些 类 创建 
一 个 对 象 。 

这 一 问题 已 经 有 了 很 好 的 解决 方案 ， 这 就 是 延迟 加 载 的 单 例 模式 〈 请 查看 维基 百科 中 关于 


“initialization-on-demand holder idiom” 的 解释 )。 


1.6.13 ”避免 在 临 青 段 中 使 用 阻塞 操作 


阻塞 操作 是 指 阻 塞 任务 对 其 进行 调用 ， 直 到 某 一 事件 发 生 后 再 调用 的 操作 。 例 如 ， 当 你 从 某 一 文 
件 读 取 数 据 或 者 向 控制 台 输 出 数据 时 ， 调 用 这 些 操作 的 任务 必须 等 待 ， 直 到 这 些 操 作 完成 为 止 。 

如 果 临 界 段 中 包含 了 这 样 的 操作 ,应 用 程序 的 性 能 就 会 降低 ， 因 为 需要 执行 该 临界 段 的 任务 都 无 
法 执行 临界 段 了 。 位 于 临界 段 中 的 操作 等 待 某 个 IO 操作 结束 ， 而 其 他 任务 则 一 直 在 等 待 临 界 段 。 

除非 必要 ， 和 否则 不 要 在 临界 段 中 加 入 阻塞 操作 。 
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1.7 ”小结 


并 发 程序 设计 包含 了 在 一 台 计 算 机 上 同时 运行 多 个 任务 或 者 进程 所 必需 的 工具 和 技术 , 以 及 在 它 
们 之 间 确 保 不 出 现 数据 丢失 和 不 一 致 所 需 的 通信 和 同步 。 

本 章 一 开始 介绍 了 并 发 的 基本 概念 。 要 完全 理解 本 书 中 的 例子 ， 你 必须 知道 并 理解 并 发 、 并 行 和 
同步 等 术语 。 然 而 ， 并 发 处 理 也 会 产生 一 些 问题 ， 例 如 数据 竞争 条 件 、 死 锁 、 活 锁 等 。 你 还 必须 知道 
并 发 应 用 程序 可 能 存在 的 问题 ， 这 会 帮助 你 识别 和 解决 这 些 问题 。 

我 们 还 介绍 了 Intel 公司 提出 的 一 个 五 步骤 的 简单 方法 论 ， 它 用 于 将 一 个 串 行 算法 转换 成 并 发 算法 。 
此 外 还 展示 了 采用 Java 语 言 实现 的 一 些 并 发 设计 模式 , 介绍 了 一 些 在 实现 并 发 应 用 程序 时 可 以 借鉴 的 
技巧 。 

最 后 简单 介绍 了 Java 并 发 API 的 组 件 。 这 是 一 个 非常 丰富 的 API， 既 有 低层 机 制 ， 也 有 很 高 层 的 
机 制 ， 让 你 很 容易 实现 强大 的 并 发 应 用 程序 。 

下 一 章 ， 你 将 学 习 如 何 使 用 Java 并 发 应 用 程序 的 基本 要 素 : Thread 类 和 Runnable 接口 。 


使 用 基本 元 素 : Thredq 和 


Runnable 


执行 线程 是 并 发 应 用 程序 的 核心 。 实 现 并 发 应 用 程序 时 ， 无 论 采 用 何 种 编程 语言 ， 都 必须 创建 不 


同 的 执行 线程 ， 并 且 这 些 线程 以 不 确定 的 顺序 并 行 运行 ， 除 非 你 使 用 同步 元 素 ， 比 如 信和 号 量 。 在 Java 


中 ， 创 建 执行 线程 有 两 种 方法 。 


口 扩展 Thread 类 。 

口 实现 Runnable 接口 。 

本 章 将 介绍 在 Java 中 使 用 这 些 元 素 实 现 并 发 应 用 程序 的 方法 ， 主 要 内 容 如 下 。 
口 Java 中 的 线程 : 特征 和 状态 。 

口 rhread 类 和 Runnable 接口 。 

口 第 一 个 例子 : 抢 阵 乘法 。 

口 第 二 个 例子 : 文件 搜索 。 


Java 中 的 线程 


如 今 , 计算 机 用 户 〈 以 及 移动 终端 和 平板 电脑 用 户 ) 使 用 电脑 工作 时 要 同时 使 用 不 同 的 应 用 程序 。 


阅读 新 闻 、 在 社交 网 络 上 发 表 文章 或 听 音 乐 的 同时 ， 可 以 使 用 文字 处 理 程序 编写 文档 。 之 所 以 可 以 同 


时 做 以 上 所 有 事情 ， 是 因为 现代 操作 系统 支持 多 进程 处 理 。 


用 户 可 以 同时 执行 不 同 的 任务 。 此 外 ,在 应 用 程序 内 部 ， 你 也 可 以 同时 做 不 同 的 事情 。 例 如 ， 如 


果 你 正在 使 用 文字 处 理 程序 ， 在 为 文本 添加 粗 体 样式 的 同时 便 可 保存 文件 。 这 是 因为 用 于 编写 这 些 应 
用 程序 的 现代 编程 语言 允许 程序 员 在 应 用 程序 中 创建 多 个 执行 线程 。 每 个 执行 线程 执行 不 同 的 任务 ， 
这 样 你 就 可 以 同时 做 不 同 的 事情 。 


Java 使 用 Thread 类 实现 执行 线程 。 你 可 以 使 用 以 下 机 制 在 应 用 程序 中 创建 执行 线程 。 

口 扩展 Thread 类 并 重 载 run ( ) 方 法 。 

口 实现 Runnable 接口 ， 并 将 该 类 的 对 象 传递 给 Thread 对 象 的 构造 函数 。 

这 两 种 情况 下 你 都 会 得 到 一 个 Threag 对 象 ， 但 是 相对 于 第 一 种 方式 来 说 ， 更 推荐 使 用 第 二 种 。 


主要 优势 如 下 。 


y 
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口 Runnable 是 一 个 接口 : 你 可 以 实现 其 他 接口 并 扩展 其 他 类 。 对 于 采用 Thread 类 的 方式 ， 你 
只 能 扩展 这 一 个 类 。 
口 可 以 通过 线程 来 执行 Runnable 对 象 ， 但 也 可 以 通过 其 他 类 似 执 行 器 的 Java 并 发 对 象 来 执 
行 。 这 样 可 以 更 灵活 地 更 改 并 发 应 用 程序 。 
口 可 以 通过 不 同 线程 使 用 同一 Runnable 对 象 。 

一 旦 有 了 Thread 对 象 ,就 必须 使 用 start ( ) 方法 创建 新 的 执行 线程 并 且 执行 Thread 类 的 run() 
方法 。 如 果 直 接 调用 *un () 方 法 , 那么 你 将 调用 常规 Java 方法 而 不 会 创建 新 的 执行 线程 。 下 面 来 看 看 
Java 编程 语言 中 线程 最 重要 的 特征 。 


2.1.1 Java 中 的 线程 : 特征 和 状态 


关于 Java 的 线程 ， 首 先 要 说 明 的 是 ， 所 有 的 Java 程序 ， 不 论 并 发 与 否 ， 都 有 一 个 名 为 主线 程 的 
Thread 对 象 。 你 可 能 知道 ，Java SE 程序 通过 main ( ) 方 法 启动 执行 过 程 。 执 行 该 程序 时 ，Java 虚拟 
机 (JVM ) 将 创建 一 个 新 rhread 并 在 该 线程 中 执行 main () 方 法 。 这 是 非 并 发 应 用 程序 中 唯一 的 线 
程 ， 也 是 并 发 应 用 程序 中 的 第 一 个 线程 。 

与 其 他 编程 语言 相同 ，Java 中 的 线程 共享 应 用 程序 中 的 所 有 资源 ， 包 括 内 存 和 打开 的 文件 。 这 是 
一 个 强大 的 工具 ， 因 为 它们 可 以 快速 而 简单 地 共享 信息 。 但 是 ， 正 如 第 1 章 所 述 ， 必 须 使 用 足够 的 同 
步 元 素 避 人 免 数 据 竞争 条 件 。 

Java 中 的 所 有 线程 都 有 一 个 优先 级 ， 这 个 整数 值 介 于 Thread.MIN_PRIORITY 和 Thread.MAX_ 
PRIORITY 之 间 (实际 上 它们 的 值 分 别 是 1 和 10 )。 所 有 线程 在 创建 时 其 默认 优先 级 都 是 Thread. 
NORM_PRIORITY ( 实际 上 它 的 值 是 5 )。 可 以 使 用 setPriority() 方 法 更 改 Thread 对 象 的 优先 级 
(如果 该 操作 不 允许 执行 ， 它 会 抛 出 securityException 异常 ) 和 getPriority () 方 法 获得 Thread 
对 象 的 优先 级 。 对 于 Java 虚拟 机 和 线程 首选 底层 操作 系统 来 说 ,这 种 优先 级 是 一 种 提示 ， 而 非 一 种 契 
约 。 线 程 的 执行 顺序 并 没有 保证 。 通 常 ， 较 高 优先 级 的 线程 将 在 较 低 优先 级 的 线程 之 前 执行 ， 但 是 ， 
正如 之 前 所 述 ， 这 一 点 并 不 能 保证 。 

在 Java 中 ， 可 以 创建 两 种 线程 。 

口 守护 线程 。 
口 非 守护 线程 。 
二 者 之 间 的 区 别 在 于 它们 如 何 影 响 程序 的 结束 。 当 有 下 列 情形 之 一 时 , Java 程序 将 结束 其 执行 过 程 。 
口 程序 执行 Runtime 类 的 exit () 方 法 ， 而 且 用 户 有 权 执 行 该 方法 。 

口 应 用 程序 的 所 有 非 守护 线程 均 已 结束 执行 ， 无 论 是 否 有 正在 运行 的 守护 线程 。 

具有 这 些 特征 的 守护 线程 通常 用 在 作为 垃圾 收集 器 或 缓存 管理 器 的 应 用 程序 中 ， 执 行 辅助 任务 。 
你 可 以 使 用 isDaemon () 方 法 检查 线程 是 否 为 守护 线程 ， 也 可 以 使 用 setDaemon () 方 法 将 某 个 线程 
立 为 守护 线程 。 要 注意 ， 必 须 在 线程 使 用 start () 方 法 开始 执行 之 前 调用 此 方法 。 

最 后 ,不同 情况 下 线程 的 状态 不 同 。 所 有 可 能 的 状态 都 在 Thread. States 类 中 定义 。 你 可 以 使 
用 get state() 方 法 获取 Threag 对 象 的 状态 。 显 然 ， 你 还 可 以 直接 更 改线 程 的 状态 。 线 程 的 可 能 状 
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态 如 下 。 

口 NEW: Thread 对 象 已 经 创建 ， 但 是 还 没有 开始 执行 。 
口 RUNNABLE: Thread 对 象 正 在 Java 虚拟 机 中 运行 。 
口 BLOCKED: Thread 对 象 正在 等 待 锁定 。 
口 WAITING: Thread 对 象 正在 等 待 另 一 个 线程 的 动作 。 

口 TIME_WAITING: Thread 对 象 正在 等 待 另 一 个 线程 的 操作 ， 但 是 有 时 间 限 制 。 

口 THREAD: Thread 对 象 已 经 完成 了 执行 。 

在 给 定时 间 内 ,线程 只 能 处 于 一 个 状态 。 这 些 状 态 不 能 映射 到 操作 系统 的 线程 状态 ,它们 是 JVM 
使 用 的 状态 .了 解 了 Java 编程 语言 中 最 重要 的 线程 特性 之 后 ,让 我 们 来 看 看 Runnable 接口 和 Thread 
类 最 重要 的 方法 。 


2.1.2 Thread 类 和 Runnable 接口 


如 前 文 所 述 ， 你 可 以 使 用 以 下 任 一 机 制 创建 新 的 执行 线程 。 
口 扩展 Threag 类 并 且 重 载 其 run () 方 法 。 
口 实现 Runnable 接口 ， 并 将 该 对 象 的 实例 传递 给 Thread 对 象 的 构造 函数 。 
在 好 的 Java 实践 做 法 中 , 相对 于 第 一 种 方法 而 言 ， 更 推荐 使 用 第 二 种 方法 , 这 将 是 我 们 在 本 章 以 
及 整 本 书 中 都 将 采用 的 方法 。 
Runnable 接口 只 定义 了 一 种 方法 : run () 方 法 。 这 是 每 个 线程 的 主 方法 。 当 你 执行 start () 方 
法 来 启动 一 个 新 线程 时 ， 它 将 调用 run() 方 法 (Thread 类 的 run () 方 法 或 者 在 Thread 类 的 构造 函 
数 中 以 参数 形式 传递 的 Runnable 对 和 象 )。 
相反 ，Thread 类 有 很 多 不 同 的 方法 。 它 有 一 种 run () 方 法 ， 实 现 线程 时 必须 重 载 该 方法 ， 扩 展 
Thread 类 和 你 必须 调用 的 start () 方 法 创建 新 的 执行 线程 。 下 面 给 出 Thread 类 的 其 他 常用 方法 。 
口 获取 和 设置 Thread 对 象 信息 的 方法 。 
四 getId() :该 方法 返回 Thread 对 象 的 标识 符 。 该 标识 符 是 在 线程 创建 时 分 配 的 一 个 正 整数 。 
在 线程 的 整个 生命 周期 中 是 唯一 且 无 法 改变 的 。 
上 getName ()/setName(): 这 两 种 方法 允许 你 获取 或 设置 rhread 对 象 的 名 称 。 这 个 名 称 是 
一 个 string 对象， 也 可 以 在 Threagd 类 的 构造 函数 中 建立 。 
轩 getPriority()/setPriority() :你 可 以 使 用 这 两 种 方法 来 获取 或 设置 rhread 对 象 的 优 
先 级 。 在 本 章 中 ， 上 文 已 经 解释 了 Java 如何 管 理 线程 的 优先 级 。 
上 jsDaemon ()/setDaemon(): 这 两 种 方法 允许 你 获取 或 建立 Thread 对 象 的 守护 条 件 。 此 
前 已 经 解释 过 该 条 件 的 原理 。 
时 getState(): 该 方法 返回 Thread 对 象 的 状态 。 之 前 已 经 介绍 过 Thread 对 象 的 所 有 可 能 
状态 。 
口 interrupt ()/interrupted()/isInterrupted(): 第 一 种 方法 表明 你 正在 请 求 结束 执行 
某 个 mhread 对 象 。 另 外 两 种 方法 可 用 于 检查 中 断 状 态 。 这 些 方法 的 主要 区 别 在 于 ， 调 用 
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interrupted() 方法 时 将 清除 中 断 标志 的 值 ， 而 isIinterrupted() 方法 不 会 。 


调用 


interrupt () 方 法 不 会 结束 Thread 对 象 的 执行 。Thread 对 象 负责 检查 标志 的 状态 并 做 出 相 


应 的 响应 。 


值 代表 你 想 要 Thread 对 象 暂停 执行 的 毫秒 数 。 


该 方法 等 待 男 一 个 Thread 对 象 结束 。 


校 验 异常 的 控制 器 。 


口 setUncaughtExceptionHandler () : 当 线 程 执 行 出 现 未 校 验 异常 时 ， 该 方法 


接 下 来 ， 你 将 学 习 如 何 使 用 这 些 方法 来 实现 如 下 两 个 示例 。 
D 一 个 矩阵 乘法 应 用 程序 。 
口 一 个 在 操作 系统 中 查找 文件 的 应 用 程序 。 


2.2 第 一 个 例子 : 和 矩阵 乘 ; 


和 矩阵 乘法 是 针对 矩阵 做 的 基本 运算 之 一 ， 也 是 并 发 和 并 行 编程 课程 中 常 采 用 的 经 典 
有 一 个 m 行 n 列 的 矩阵 4， 和 男 一 个 n 行 p 列 的 矩阵 B， 那么 可 以 将 两 个 矩阵 相 乘 得 到 一 个 m 行 p 列 


的 矩阵 C。 


问题 。 如 果 


D sleep () : 该 方法 允许 你 将 线程 的 执行 暂停 一 段 时 间 。 它 将 接收 一 个 long 型 值 作 为 参数 ， 该 
口 join () : 这 个 方法 将 暂停 调用 线程 的 执行 ， 直 到 调用 该 方法 的 线程 执行 结束 为 止 。 可 以 使 用 
用 于 建立 未 


口 currentThread(): 这 是 Thread 类 的 静态 方法 ， 它 返回 实际 执行 该 代码 的 Thread 对 象 。 


你 


本 节 将 实现 两 个 矩阵 相 乘 的 串 行 版 本 算法 ， 以 及 三 种 不 同 的 并 发 版 本 。 然 后 ,我 们 将 比较 四 个 解 


决 方案 ， 看 看 何 时 并 发 处 理会 带 来 更 好 的 性 能 。 
2.2.1 公共 类 
为 了 实现 这 个 例子 , 我 们 用 到 了 一 个 名 为 MatrixGenerator 的 类 。 个 


用 它 随 机 生成 将 进行 乘法 


操作 的 矩阵 。 这 个 类 有 一 种 名 为 generate () 的 方法 ， 它 接收 矩阵 中 所 需 的 行 数 和 列 数 作为 参数 ， 并 


基于 这 两 个 维 数 生成 一 个 带 有 随机 double 值 的 矩阵 。 该 类 的 源 代码 如 下 : 


public class MatrixGenerator { 


public static double[][] generate (int rows, int columns) 
double[][] ret=new double[rows] [columns]; 
Random random=new Random(); 
for (int i=0; i<rows; i++) { 
for (int j=0; j<columns; j++) { 
ret[i][j]=random.nextDouble()*10; 
3 
} 


return ret; 


{ 
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2.2.2 ”上 串 行 版 本 


我 们 在 serialMultiplier 类 中 实现 了 该 算法 的 串 行 版 本 。 该 类 只 有 一 种 静态 方法 ， 名 为 
multiply()。 它 接收 三 个 double 型 矩阵 作为 参数 : 其 中 两 个 矩阵 是 将 要 相 乘 的 矩阵 ， 另 一 个 矩阵 用 
于 存储 结 

我 们 并 不 检查 和 矩阵 的 维 数 ， 只 保证 其 正确 性 ， 并 使 用 一 个 三 重 般 套 循环 计算 结果 和 矩 阵 。 
SerialMultiplier 类 的 源 代码 如 下 : 


public class SerialMultiplier { 


public static void multiply (double[][] matrixl, double[][] matrix2, 
double[][] result) { 
int rowsl=matrixl.length; 
int columnsl=matrixl[0] .length; 


int columns2=matrix2[0] .length; 


for (int i=0; i<rowsl; i++) { 
for (int j=0; 人 j++) { 


result [i]{[j]=0; 
fOr (Ed columnsl1l; k++) { 
result[i][j]+=matrixl[i] [kj]*matrix2[k] [j]; 


我 们 还 实现 了 一 个 名 为 SerialMain 的 主 类 , 用 于 测试 串 行 版 矩阵 乘法 算法 。 在 main () 方 法 中 ， 
生成 两 个 2000 行 2000 列 的 随机 和 矩阵， 并 使 用 serialMultiplier 类 进行 两 个 矩阵 的 乘法 运算 。 算 
法 执行 时 间 的 单位 是 毫秒 ， 如 下 所 示 : 


public class SerialMain { 


public static void main(String[] args) { 


double matrixl[][] MatrixGenerator.generate(2000, 2000); 
double matrix2[][] = MatrixGenerator.generate(2000, 2000); 
double resultSerial[][]= new double[lmatrix]1.length] 
[matrix2[0] .length]; 


Date start=new Date(); 

SerialMultiplier.multiply (matrixl, matrix2, resultSerial); 

Date end=new Date(); 

System.out .printf ("Serial: %d%n",end.getTime()-start.getTime()); 


2.2.3 ”并 行 版 本 
我 们 已 经 实现 了 三 种 不 同 的 并 行 算法 ， 基 于 不 同 的 粒度 实现 这 些 例 子 。 
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口 结果 矩阵 中 每 个 元 素 对 应 一 个 线程 。 
口 结果 和 矩 阵 中 每 行 对 应 一 个 线程 。 
口 采用 与 JVM 中 可 用 处 理 器 数 或 核心 数 相同 的 线程 
让 我 们 来 看 看 这 三 个 版 本 的 源 代码 。 
1. 第 一 个 并 发 版 本 : 每 个 元 素 一 个 线程 
在 这 个 版 本 中 ， 我 们 将 在 结果 和 矩阵 中 为 每 个 元 素 创建 一 个 新 的 执行 线程 。 例 如 ， 将 两 个 2000 行 
2000 列 的 矩阵 相 乘 ， 得 到 的 矩阵 将 有 4 000 000 个 元 素 ， 因 此 我 们 将 创建 4 000 000 个 Threag 对 象 。 
因为 如 果 同 时 启动 所 有 线程 ， 可 能 会 使 系统 超载 ， 所 以 将 以 10 个 线程 一 组 的 形式 启动 线程 。 
启动 10 个 线程 后 ， 使 用 join() 方 法 等 待 它们 完成 ， 而 且 一 旦 完成 ， 就 启动 男 外 10 个 线程 。 我 
们 一 直 遵 循 这 个 过 程 ， 直 到 启动 所 有 必需 线程 。 选 择 10 作为 批量 处 理 线 程 数 并 没有 特殊 理由 。 你 也 
可 以 更 改 这 一 数值 ， 并 查看 更 改 后 的 数值 对 算法 性 能 的 影响 。 
我 们 将 实现 IndqividqualMultiplierTask 类 和 parallelIndividualMultiplier 类 。 
IndividualMultiplierTask 类 将 实现 每 个 Thread。 该 类 实现 了 Runnable 接口 ， 将 使 用 五 个 内 
部 属性 : 两 个 要 相 乘 的 抢 阵 、 结 果 抢 阵 ， 以 及 要 计算 的 元 素 的 行 和 列 。 我 们 将 使 用 该 类 的 构造 函数 来 
初始 化 所 有 这 些 属 性 : 


public class IndividualMultiplierTask implements Runnable { 


O 


private final double[][] result; 
private final double[][] matrixil; 
private final double[][] matrix2; 


private final int row; 
private final int column; 


public IndividualMultiplierTask (double[][] result, double[][] 
matrixl, double[][] matrix2, 
int. 1.,. inE J) 4 

this.result = result; 

this.matrixl = matrixil; 

this.matrix2 = matrix2; 

this.row = i1; 

this.column = j; 


} 
run() 方 法 将 计算 由 row 和 column 属性 决定 的 元 素 值 。 下 面 的 代码 将 展示 如 何 实现 该 行为 。 


QOverride 
public void run() { 
result[row] [column] = 0; 


for (int k = 0; k < matrixl[row].length; k++) { 
result[row] [column] += matrixl[row] [k] * matrix2[k] [column]; 
} 
} 
} 


ParallelIndividualMultiplier 类 将 创建 所 有 必要 的 执行 线程 计算 结果 和 矩阵 。 它 有 一 种 名 为 
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multiply () 的 方法 ， 接 收 两 个 将 要 相 乘 的 矩阵 和 第 三 个 用 于 存储 结果 的 抢 阵 作为 参数 。 该 类 将 处 理 
结果 矩阵 的 所 有 元 素 , 并 创建 一 个 单独 的 IndividualMultiplierTask 类 计算 每 个 元 素 。 如 前 所 述 ， 
我 们 按照 10 个 一 组 的 方式 启动 线程 。 启动 10 个 线程 后 , 可 使 用 waitForThreads () 辅助 方法 等 待 这 
10 个 线程 最 终 完 成 ， 该 方法 调用 了 join () 方 法 。 下 面 的 代码 块 展示 了 该 类 的 实现 : 


public class ParallelIndividualMultiplier { 


public static void multiply (double[][] matrixl, double[][] matrix2, 
double[][] result) { 


List<Thread> threads=new ArrayList<>(); 
int rowsl=matrixl.length; 
int rows2=matrix2.length; 


for (int i=0; i<rowsl; i++) { 
for (int j=0; j<columns2; j++) { 
IndividualMultiplierTask task=new IndividualMultiplierTask 
(result, matrixl, matrix2, i, j); 
Thread thread=new Thread (task); 
thread.start (); 
threads.add (thread); 


if (threads.size() %$ 10 == 0) { 
waitForThreads (threads); 
j 
} 
} 


} 


private static void waitForThreads (List<Thread> threads){ 
for (Thread thread: threads) { 
try { 
thread.join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


threads.clear (); 


} 


} 


与 其 他 示例 相同 , 我们 创建 了 一 个 主 类 用 以 测试 该 示例 。 它 与 SerialMain 类 非常 相似 , 但 在 本 
例 中 ， 我 们 将 它 称 为 ParallelIinqividualMain 类 。 此 处 不 再 给 出 该 类 的 源 代 码 。 

2. 第 二 个 并 发 版 本 : 每 行 一 个 线程 

在 这 一 版 本 中 ， 我 们 将 在 结果 矩阵 中 为 每 一 行 创 建 一 个 新 的 执行 线程 。 例 如 ， 如 果 将 两 个 2000 
行 和 2000 列 的 和 矩阵 相 乘 ， 就 要 创建 4 000 000 个 线程 。 正 如 前 面 的 示例 中 所 做 的 那样 ， 我 们 将 以 10 
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个 线程 为 一 组 启动 线程 ， 然 后 等 竺 它们 终结 ， 再 启动 新 线程 。 

我 们 将 实现 RowMultiplierTask 类 和 ParallelRowMultiplier 类 以 实现 该 版 本 。 
RowMultiplierTask 类 将 实现 每 个 Thread。 它 实现 了 Runnable 接口 , 并 且 将 使 用 五 个 内 部 属性 : 
两 个 要 相 乘 的 和 矩阵、 结果 抢 阵 ， 以 及 要 计算 的 结果 拖 阵 的 行 。 我 们 将 使 用 该 类 的 构造 郴 数 来 初始 化 所 
有 这 些 属性 ， 如 下 所 示 。 


public class RowMultiplierTask implements Runnable { 


WT 


private final double[][] result; 
private final double[][] matrixi]l; 
private final double[][] matrix2; 


private final int row; 


public RowMultiplierTask (double[][] result, double[][] matrixil, 
double[][] matrix2, int i) { 
this.result = result; 

ETS inatricl et 

this.matrix2 = matrix2; 

this.row = i; 


} 


run() 方 法 有 两 个 循环 。 第 一 个 循环 将 处 理 待 计算 结果 矩阵 row 中 的 所 有 元 素 ， 而 第 二 个 循环 将 
计算 每 个 元 素 的 结果 值 。 


QOverride 
public voidq run() { 
for (int j = 0; j < matrix2[0] .length; j++) { 
result [row] [j] = 0; 
for (int k = 0; k < matrixl[row].length; k++) { 
result [row] [j] += matrixil[row] [k] * matrix2[k] [jl]; 


} 


} 


ParallelRowMultiplier 类 将 创建 计算 结果 和 矩阵 所 需 的 所 有 执行 线程 。 它 有 一 种 名 为 multiply () 
的 方法 ， 该 方法 接收 两 个 待 乘 矩 阵 和 第 三 个 用 于 存储 结果 的 矩阵 作为 参数 。 它 将 处 理 结 果 和 矩阵 的 所 有 
行 , 并 创建 一 个 RowMultiplierTask 处 理 每 一 行 。 如 前 所 述 , 我 们 以 10 个 为 一 组 的 方式 启动 线程 。 
启动 10 个 线程 后 ， 使 用 waitForThreads () 辅助 方法 等 待 这 10 个 线程 最 终 完 成 ， 它 将 调用 join () 
方法 。 下 面 的 代码 块 展示 了 如 何 实现 这 个 类 ; 


public class ParallelRowMultiplier { 


public static void multiply (double[][] matrixl, doublel[][] 
matrix2, double[][] result) { 


List<Thread> threads = new ArrayList<>(); 


int rowsl = matrixl.length; 
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for (Int i = 0; i < rowsl; i++) { 
RowMultiplierTask task = new RowMultiplierTask (result, 
metrixl; meatrix2, 1)y 
Thread thread = new Thread (task); 
thread.start (); 
threads.add (thread); 


if (threads.size() %$ 10 == 0) { 
waitForThreads (threads); 


} 
} 


private static void waitForThreads (List<Thread> threads)t{ 
for (Thread thread : threads) { 
bry 这 
thread.join(); 
} catch (InterruptedException e) { 
e.printStackTrace (); 
l 
} 
threads.clear (); 


} 


} 

与 其 他 示例 相同 , 我 们 创建 了 一 个 主 类 用 以 测试 这 个 例子 。 它 与 SerialMain 类 非常 相似 , 但 在 
本 例 中 ， 我 们 将 它 称 为 ParallelRowMain 类 。 此 处 不 再 给 出 该 类 的 源 代码 。 

3. 第 三 个 并 发 版 本 : 线程 的 数量 由 处 理 器 决定 

在 最 后 一 个 版 本 中 ， 只 创建 与 JVM 可 用 核 或 处 理 器 数量 相同 的 线程 。 我 们 使 用 Runtime 类 的 
availableProcessors () 方 法 计算 这 一 数值 。 

在 GroupMultiplierTask 类 和 ParallelGroupMultiplier 类 中 实现 了 此 版 本 。Group- 
MultiplierTask 类 实现 了 我 们 将 要 创建 的 线程 。 它 实现 了 Runnable 接口 , 并 且 使 用 了 五 个 内 部 属 
性 : 两 个 要 相 乘 的 矩阵 、 结 果 和 矩阵， 以 及 该 任务 将 要 计算 的 结果 矩阵 的 初始 行 和 最 终 行 。 我 们 将 使 用 
该 类 的 构造 函数 初始 化 所 有 这 些 属 性 。 下 面 的 代码 块 展示 了 如 何 实现 类 的 第 一 部 分 : 


public class GroupMultiplierTask implements Runnable { 


private final double[][] result; 
private final double[][] matrixil; 
private final double[][] matrix2; 


private final int startIndex; 
private final int endIindex; 


public GroupMultiplierTask (double[][] result, double[][] 
matrixl, double[][] matrix2, 
int startIindex, int endIndex) { 
this.result = result; 
this.matrixl = matrixi]l; 
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this.matrix2 = matrix2; 
this.startIndex = startIindex; 
this.endIindex = endIndex; 


} 


run () 方 法 将 使 用 三 个 循环 实现 其 计算 。 第 一 个 循环 将 检查 该 任务 将 要 计算 的 结果 和 矩阵 的 行 , 第 
二 个 循环 将 处 理 每 一 行 的 所 有 元 素 ， 最 后 一 个 循环 将 计算 每 个 元 素 的 值 。 


QOverride 
public voidq run() { 
for (int i = startIindex; i < endIndex; i++) { 
for (int j = 0; j < matrix2[0] .length; j++) { 
result[i][j] = 0; 
for (int k = 0; k < matrixl[i].length; k++) { 
result[i][j] += matrixl[i][k] * matrix2[k] [j]; 


ParallelGroupMutiplier 类 将 创建 线程 计算 结果 矩阵 。 它 有 一 种 名 为 multiply () 的 方法 ， 
接收 要 相 乘 的 两 个 矩阵 和 第 三 个 用 于 存放 结果 的 矩阵 作为 参数 。 首 先 ， 通 过 使 用 Runtime 类 的 
availableProcessors() 方 法 获取 可 用 处 理 器 的 数量 。 然 后 ， 计 算 每 个 任务 必须 处 理 的 行 ， 以 及 创 
建 并 启动 这 些 线程 。 最 后 ， 使 用 join () 方 法 等 待 线程 结束 。 


public class ParallelGroupMultiplier { 


public static void multiply (double[][] matrixl, double[][] matrix2, 
double[][] result) { 
List<Thread> threads=new ArrayList<>(); 


int rowsl=matrixl.length; 


int numThreads=Runtime.getRuntime() .availableProcessors(); 
int startIndex, endIndex, step; 

step=rowsl1 / numThreads; 

startIindex=0; 

endIndex=step; 


for (int i=0; i<numThreads; i++) { 
GroupMultiplierTask task=new GroupMultiplierTask 
(result, matrixl, matrix2, startIindex, endIndex); 
Thread thread=new Thread (task); 
thread.start (); 
threads.add (thread); 
startIndex=endIndex; 
endIndex= i==numThreads-2?rowsl:endIndex+step; 


for (Thread thread: threads) { 
try { 
thread.join(); 
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} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


} 

与 其 他 示例 相同 , 我 们 创建 了 一 个 主 类 测试 这 个 例子 。 它 与 serialMain 类 非常 相似 , 但 在 本 例 
中 ， 我 们 将 它 称 为 parallelGroupMain 类 。 此 处 不 再 给 出 该 类 的 源 代码 。 

4. 比较 方案 

比较 一 下 本 节 中 实现 的 乘法 器 算法 四 个 版 本 的 解决 方案 (包括 串 行 版 和 并 发 版 )。 为 了 测试 该 算 
法 ,我 们 已 经 使 用 JMH 框架 执行 这 些 示 例 ， 该 框架 可 支持 在 Java 中 实现 微 基准 测试 。 使 用 基准 测试 
框架 是 一 种 很 好 的 解决 方案 ,可 以 直接 使 用 currentTimeMi11is() 或 nanoTime () 等 方法 度量 时 间 。 
在 两 种 不 同 架 构 中 ， 执 行 这 些 例子 各 10 次 。 
口 一 台 计 算 机 配置 有 Intel Core i5-5300i 处 理 器 、Windows 7 操作 平台 和 16GB 内 存 。 该 处 理 器 有 
两 个 核 ， 每 个 核 可 以 执行 两 个 线程 ， 所 以 将 有 四 个 并 行 线 程 。 
口 另 一 台 计 算 机 配置 有 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 内 存 ， 此 处 理 器 有 四 


个 核 。 
我 们 已 用 三 种 不 同 大 小 的 随机 算 阵 测试 了 算法 : 
口 S00x500 


口 1000x1000 
2000x2000 
下 表 给 出 了 平均 执行 时 间 以 及 标准 偏差 〈 单 位 : 毫秒 )。 


算 法 规 模 AMD Intel 

500 1821.729+366.885 447.920+49.864 

串 行 版 1000 27 661.481+796.670 5474.942+164.447 
2000 315 457.940+32 961.165 70 968.563+4056.883 
500 43 512.382+813.131 17 152.883+170.408 

按 个 体 处 理 的 并 行 版 1000 164 968.834+1034.453 72 858.4194+381.258 
2000 774 681.287+17 380.02 316 466.479+5033.577 
500 685.465+72.474 229.228+61.497 

按 行 处 理 的 并 行 版 1000 8565+437.611 3710.6134+411.490 
2000 92 923.685+11 595.433 42 655.081+1370.940 
500 515.743+51.106 133.530+12.271 

按 分 组 处 理 的 并 行 版 1000 7466.880+409.136 3862.635+368.427 
2000 86 639.811+2834.1 43 353.603+1857.568 


由 上 表 可 以 得 出 以 下 结论 。 
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口 这 两 种 架构 有 很 大 不 同 ， 但 是 你 必须 考虑 到 两 台电 脑 处理 器 、 操 作 系统 、 内 存 和 硬盘 等 的 配 
置 不 同 。 
口 在 两 种 架构 上 得 到 的 结果 相同 。 按 分 组 处 理 的 并 行 版 和 按 行 处 理 的 并 行 版 得 到 了 最 佳 结果 ， 

而 按 个 体 处 理 的 并 行 版 得 到 的 结果 最 差 。 

这 个 例子 告诉 我 们 ， 开 发 一 个 并 发 应 用 程序 时 必须 非常 小 心 。 如 果 没 有 选择 良好 的 解决 方案 ， 那 
么 性 能 表现 会 很 糟糕 。 

针对 500x500 矩阵 ,我们 用 性 能 最 佳 的 并 发 版 本 和 单行 版 本 求 取 加 速 比 ， 以 此 来 考查 并 发 处 理 对 
算法 性 能 的 改进 情况 。 


A 


Ti 1821.729 


S EE serial 一 -3.53 
1 ient $515.743 

S = ea 447.920 3.35 
oe 133.530 


concurrent 
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所 有 操作 系统 都 提供 了 一 种 功能 ， 即 在 文件 系统 中 搜索 符合 某 种 条 件 的 文件 。( 例如 ， 按 照 名 称 
或 部 分 名 称 、 修 改 日 期 等 进行 搜索 。) 在 我 们 的 示例 中 将 实现 一 个 算法 ， 用 于 查找 具有 预定 名 称 的 文 
件 。 该 算法 将 采用 启动 搜索 的 初始 路 径 和 要 查找 的 文件 作为 输入 。JDK 提供 了 遍历 目录 树 结 构 的 功能 ， 
因此 不 需要 再 次 在 实际 应 用 中 自己 实现 它 。 


2.3.1 公共 类 


这 两 个 版 本 的 算法 将 共享 一 个 公共 类 用 以 存储 搜索 结果 。 我 们 将 其 称 为 Result 类 ， 而 它 有 两 个 
属性 : 一 个 名 为 foung 的 Boolean 值 ， 用 于 判定 是 否 找到 了 正在 查找 的 文件 ; 一 个 名 为 path 的 
string 值 。 如 果 找 到 了 该 文件 ， 就 将 其 完整 路 径 存 放 在 该 属性 中 。 

这 个 类 的 代码 非常 简单 ， 所 以 此 处 不 再 给 出 源 代码 。 


2.3.2 ”上 品行 版 本 


这 个 算法 的 串 行 版 本 非常 简单 。 搜 索 初 始 路 径 ， 获 取 文 件 和 目录 内 容 ， 并 对 其 进行 处 理 。 对 于 文 
件 来 说 ， 会 将 其 名 称 与 正在 寻找 的 名 称 进行 比较 。 如 果 相 同 ， 则 将 其 填 人 Result 对 象 并 完成 算法 执 
行 。 对 于 各 目录 来 说 ， 我 们 对 本 操作 进行 递归 调用 ， 以 便 在 这 些 目录 中 搜索 文件 。 

我 们 将 在 SerialFileSearch 类 的 searchFiles () 方 法 中 实现 这 个 操作 。serialFilesearch 
类 的 源 代码 如 下 : 


public class SerialFileSearch { 


public static void searchFiles(File file, String fileName, 
Result result) { 
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File[] contents; 
contents=file.listFiles(); 


if ((contents==null) || (contents.length==0)) { 
return; 


} 


for (File content : contents) { 


if (content.isDirectory()) { 
searchFiles(content,fileName, result); 
} else { 


if (content.getName() .equals (fileName)) { 
result.setPath(content .getAbsolutePath()); 
result.setFound (true); 
System.out .printf("Serial Search: Path: %Ss%n", 
result .getPath()); 
return; 
} 
} 
if (result.isFound()) { 
return; 
} 
} 
} 


2.3.3 并 发 版 本 


并 行 化 该 算法 有 多 种 方法 (如 下 所 示 )。 
口 你 可 以 为 我 们 要 处 理 的 每 个 目录 创建 一 个 执行 线程 。 
口 你 可 以 将 目录 树 分 组 ， 并 为 每 个 组 创建 执行 线程 。 你 创建 的 组 数 将 决定 应 用 程序 使 用 的 执行 
线程 数 。 
口 你 可 以 使 用 与 JVM 的 可 用 核 数 相同 的 线程 数 。 

在 这 种 情况 下 , 我 们 必须 考虑 到 算法 将 集中 使 用 IO 操作 。 因 为 一 次 只 有 一 个 线程 可 以 读 取 磁盘 ， 
所 以 不 是 所 有 解决 方案 都 会 提高 算法 串 行 版 本 的 性 能 。 

我 们 将 按照 最 后 一 种 供 选 方案 实现 并 发 版 本 。 将 在 一 个 concurrentLinkedoueue (一 个 可 以 在 
并 发 应 用 程序 中 使 用 的 队列 oueue 接口 实现 ) 中 存储 初始 路 径 所 包含 的 目录 ， 并 创建 与 JVM 可 用 处 
理 器 数量 相同 的 线程 。 每 个 线程 将 从 队列 中 获取 一 条 路 径 ， 并 人 处理 该 目录 及 其 所 有 子 目 录 和 其 中 的 文 
件 。 线 程 处 理 完毕 该 目录 中 的 所 有 文件 和 目录 时 ， 将 从 队列 中 提取 另 一 个 目录 。 

如 果 其 中 一 个 线程 找到 了 正在 查找 的 文件 ， 该 线程 会 立即 终止 执行 。 在 这 种 情况 下 ， 我 们 使 用 
interrupt () 方 法 结束 其 他 线程 的 执行 。 

我 们 在 ParallelGroupFileTask 类 和 ParallelGroupFileSearch 类 中 实现 了 该 版 本 的 算 
法 。ParallelGroupFileTask 类 实现 了 所 有 将 用 于 查找 文件 的 线程 。 它 实现 了 Runnable 接口 并 且 
使 用 了 四 个 内 部 属性 : 一 个 名 为 fileName 的 string 属性 ,用 于 存储 待 查找 文件 的 名 称 ; 一 个 名 为 
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directories 的 File 对 象 的 ConcurrentLinkedoueue， 用 于 存放 将 要 处 理 的 目录 列表 ; 一 个 名 
为 parallelResult 的 Result 对 象 , 用 于 存储 搜索 结果 ; 一 个 名 为 founa 的 Boolean 属性 , 用 于 
标记 是 否 发 现 了 正在 寻找 的 文件 。 我 们 将 使 用 该 类 的 构造 函数 初始 化 所 有 属性 : 


public class ParallelGroupFileTask implements Runnable { 


br 


private final String fileName; 

private final ConcurrentLinkedQueue<File> directories; 
private final Result parallelResult; 

private boolean foundgd; 


public ParallelGroupFileTask (String fileName, Result parallelResult, 
ConcurrentLinkedQueue<File>directories) { 
this.fileName = fileName; 
this.parallelResult = parallelResult; 
this.directories = directories; 
this.found = false; 


} 


run() 方 法 有 一 个 循环 , 在 队列 中 有 元 素 并 且 没 有 找到 该 文件 时 会 被 执行 。 它 使 用 concurrent- 
LinkedQueue 类 的 pol1 () 方 法 处 理 下 一 个 日 录 ， 并 调用 辅助 方法 processDirectory ()。 如 果 找 
到 了 这 个 文件 (found 属性 为 true )， 那 么 使 用 return 语句 结束 线程 。 


@Override 
puUBDLLG. Vold Eurt(t) et 
while (directories.size() > 0) { 
File file = directories.poll(); 
try { 
processDirectory (file, fileName, parallelResult); 
if (found) { 
System.out .printf("%s has found the filegn"， 
Thread.currentThread() .getName ()); 
System.out .printf("Parallel Search: Path: gSs%n", 
parallelResult .getPath()); 


return; 
} 
} catch (InterruptedException e) { 
System.out .printf("%s has been interrupted%n", 
Thread.currentThread() .getName ()); 


} 


如 果 找 到 了 作为 参数 的 文件 ，processDirectory () 方 法 将 接收 存放 待 处 理 目录 的 File 对 象 、 
正在 查找 的 文件 名 和 存放 结果 的 Result 对 象 。 它 使 用 1istFiles () 方 法 获取 File 对 象 的 内 容 。 
listFiles() 方 法 可 返回 File 对 象 数 组 并 对 其 进行 处 理 。 对 于 目录 来 说 , 这 将 建立 一 个 新 对 象 对 该 
方法 进行 递归 调用 。 对 于 文件 来 说 ,该 方法 将 调用 辅助 的 processFile() 方 法 : 


private void processDirectory (File file, String fileName, 
Result parallelResult) throws 
InterruptedException { 
File[] contents; 
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contents = file.listFiles(); 


if ((contents == null) || (contents.length == 0)) { 
return; 


} 


for (File content : contents) { 


if (content.isDirectory()) { 
processDirectory (content, fileName, parallelResult); 
if (Thread.currentThread() .isInterrupted()) { 


throw new InterruptedException(); 


if (found) { 


return:; 
} 
} else { 
processFile(content, fileName, parallelResult); 
if (Thread.currentThread().isInterrupted()) { 


throw new InterruptedException(); 
lL 
if (found) { 
return; 


} 


} 
} 


在 处 理 完 每 个 目录 和 文件 之 后 ， 还 要 检查 线程 是 否 被 中 断 。 我 们 使 用 Thread 类 的 current- 
Thread () 方 法 获取 执行 该 任务 的 Thread 对 象 , 然后 使 用 isInterrupted() 方 法 来 验证 线程 是 否 被 
中 断 。 如 果 线 程 被 中 断 ， 我 们 将 抛 出 一 个 新 的 InterruptedExeption 异常 ,在 run() 方 法 中 捕捉 
该 异常 以 结束 线程 的 执行 。 这 种 机 制 使 我 们 能 够 在 找到 文件 后 完成 搜索 。 

我 们 还 要 检查 foung 属性 是 否 为 true。 如 果 为 true， 我 们 将 立即 返回 以 完成 线程 的 执行 。 

如 果 找 到 了 作为 参数 的 文件 , processFile() 方 法 接收 存储 待 处 理 文件 的 File 对 象 、 待 查找 文 
件 的 名 称 、 存 放 操 作 结果 的 Result 对 象 。 我 们 将 当前 处 理 File 的 名 称 与 正在 查找 的 文件 名 称 进 行 
比较 。 如 果 两 个 名 称 相 同 ， 那 么 填 人 Result 对 象 并 且 将 founa 属性 设置 为 true， 如 下 所 示 : 


private void processFile(File content, String fileName, 
Result parallelResult) { 
if (content.getName() .equals (fileName)) { 
parallelResult.setPath(content .getAbsolutePath()); 
this.found = true; 
} 
} 


public boolean getFound() { 
return found; 
} 
} 


ParallelGroupFileSearch 类 使 用 辅助 任务 实现 了 整个 算法 , 它 将 实现 静态 的 searchFiles () 
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方法 ,接收 一 个 指向 搜索 基本 路 径 的 File 对 象 .一 个 存储 当前 查找 文件 名 称 的 fileName 的 String、 
存放 操作 结果 的 Result 对 象 作 为 参数 。 

首先 ， 创 建 concurrentLinkedoueue 对 象 ， 并 且 将 基本 路 径 所 包含 的 所 有 目录 存放 在 其 中 ， 
如 下 所 示 : 


public class ParallelGroupFileSearch { 


public static void searchFiles(File file, String fileName, 
Result parallelResult) { 


ConcurrentLinkedQueue<File> directories = new 
ConcurrentLinkedQueue<>(); 
File[] contents = file.listrFiles(); 


for (File content : contents) { 
if (content.isDirectory()) { 
directories.add (content); 
} 
} 


然后 , 我 们 使 用 Runtime 类 的 availableProcessors () 方 法 获得 JVM 可 用 线程 的 数量 , 创建 
一 个 ParallelFileGroupTask 对 象 ， 并 量 为 每 个 处 理 右 创建 一 个 Thread。 


int numThreads = Runtime.getRuntime() .availableProcessors(); 
Thread[] threads = new Thread[numThreads]; 
ParallelGroupFileTask[] tasks = new ParallelGroupFileTask 


[numThreads]; 
for (int i = 0; i < numThreads; i++) { 
tasks[i] = new ParallelGroupFileTask (fileName, parallelResult, 
directories); 
threads[i] = new Thread(tasks[i]); 


threads[i].start(); 
} 


最 后 , 等 待 某 个 线程 找到 文件 或 者 所 有 线程 都 完成 执行 为 止 。 对 于 第 一 种 情况 ,使 用 interrupt () 
方法 和 前 面 提 到 的 机 制 取 消 其 他 线程 的 执行 。 使 用 Threag 类 的 getstate() 方 法 检查 各 个 线程 是 否 
已 完成 执行 ， 如 下 所 示 : 


boolean finish = false; 
int numFinished = 0; 


while (!finish) { 
numFinished = 0; 
for (int i = 0; i < threads.length; i++) { 


if (threads[i] .getState() == State.TERMINATED) { 
numFinished++; 
if (tasks[i].getFound()) { 


finish = true; 


} 


2.3 第 二 个 例子 : 文件 搜索 37 


if (numFinished == threads.length) { 
finish = true; 
} 
} 
if (numFinished != threads.length) { 
for (Thread thread : threads) { 
thread.interrupt (); 
} 
} 


2.3.4 ”对 比 解决 方案 


比较 一 下 本 节 中 实现 的 乘法 器 算法 四 个 版 本 的 解决 方案 ( 串 行 版 和 并 发 版 )。 为 了 测试 该 算法 ， 
我 们 使 用 JMH 框架 执行 这 些 示 例 ， 该 框架 可 支持 用 Java 语言 实现 微 基准 测试 。 使 用 基准 测试 框架 是 
一 种 很 好 的 解决 方案 ， 它 可 以 直接 使 用 currentTimeMi11is () 或 nanoTime () 等 方法 来 计算 时 间 。 
我 们 在 两 种 不 同 架 构 中 执行 这 些 例 子 各 10 次 。 
口 一 台 计 算 机 配置 有 Intel Core i5-5300i 处 理 器 、Windows 7 操作 系统 和 16GB 内 存 。 该 处 理 器 有 
两 个 核 ， 每 个 核 可 以 执行 两 个 线程 ， 所 以 将 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 有 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 内 存 。 该 处 理 器 有 四 

个 核 。 

在 Windows 目录 下 用 两 个 不 同 的 文件 名 测试 算法 : 
口 hosts 
DD yyy.yyy 

我 们 已 经 在 Windows 操作 系统 上 测试 了 算法 。 第 一 个 文件 存在 而 第 二 个 文件 不 存在 。 如果 你 使 用 
了 其 他 操作 系统 ， 要 相应 地 更 改 文件 的 名 称 。 以 下 表格 给 出 了 以 毫秒 为 单位 的 平均 执行 时 间 及 其 标准 
偏差 。 


算 法 范 AMD Intel 
有 hosts 5869.019+124.548 2955.535+69.252 
串 行 版 
yyyyyy 26 474.179+785.680 14 508.276+195.725 
小 hosts 2792.313 土 100.885 1972.248 土 193.386 
并 行 版 
yyy.yyy 21 337.288+954.344 12 742.856+361.681 


我 们 可 以 得 出 以 下 结论 。 
口 这 两 种 架构 的 性 能 有 所 区 别 ， 但 是 你 必须 考虑 到 它们 的 处 理 器 、 操 作 系统 、 内 存 和 硬盘 不 同 。 
D 在 两 种 架构 上 得 到 的 结果 相同 。 并 行 算法 的 性 能 优 于 串 行 算法 。 对 hosts 文件 的 搜索 来 说 ， 这 
种 性 能 差异 要 比 查 找 不 存在 的 文件 更 大 。 
我 们 可 以 用 搜索 hosts 文件 性 能 最 好 的 并 发 版 本 和 串 行 版 本 求 取 加 速 比 ， 以 此 来 观察 采用 并 发 处 
理 如 何 提高 算法 的 性 能 。 
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2.4 小 结 
本 章 介 绍 了 在 Java 中 创建 执行 线程 的 最 基本 元 素 : Runnable 接口 和 Thread 类 。 在 Java 中 , 创 
建 线程 的 方式 有 两 种 。 
口 扩展 Thread 类 并 且 重 载 run ( ) 方 法 。 


口 实现 Runnable 接口 ， 并 且 将 该 类 的 对 象 传递 给 rhreaa 类 的 构造 函数 。 
第 二 种 机 制 比 第 一 种 更 受 欢 迎 ， 因 为 它 带 来 了 更 大 的 灵活 性 。 
我 们 还 了 解 了 Thread 类 中 有 许多 不 同 的 方法 。 用 这 些 方法 可 以 获取 线程 信息 ， 更 改线 程 的 优先 

级 ， 或 者 等 待 线程 结束 。 我 们 在 两 个 例子 中 使 用 了 所 有 这 些 方法 ， 其 中 一 个 例子 是 矩阵 乘法 ， 另 一 个 

例子 是 在 目录 中 搜索 文件 。 在 这 两 种 情况 下 ， 并 发 处 理 呈 现 的 性 能 更 好 ,但 是 我 们 也 明白 了 ， 实 现 算 

法 的 并 发 版 本 时 必须 小 心 。 若 使 用 并 发 处 理 的 方式 不 合适 ， 那 么 性 能 也 会 糟糕 。 

下 一 章 将 介绍 执行 器 框架 ， 在 该 框架 下 创建 并 发 应 用 程序 时 不 必 担 心 线程 的 创建 和 管理 。 
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实现 简单 的 并 发 应 用 程序 时 ， 要 为 每 个 并 发 任务 创建 一 个 线程 并 执行 。 这 种 方式 会 引发 一 些 重要 
问题 。 从 Java 5 开始 ，Java 并 发 API 便 引入 了 执行 器 框架 ,用 以 改善 那些 执行 大 量 并 发 任务 的 并 发 应 
用 程序 的 性 能 。 本 章 将 介绍 以 下 内 容 。 
口 执行 器 简介 。 
口 第 一 个 例子 : 大 最 近邻 算法 。 
口 第 二 个 例子 : 客户 端 /服务 器 环境 下 的 并 发 处 理 。 


3.1 执行 器 简介 


第 2 章 已 经 介绍 过 ，Java 实现 并 发 应 用 程序 的 基本 机 制 如 下 。 
口 实现 了 Runnable 接口 的 类 : 这 是 要 以 并 发 方式 实现 的 代码 。 
口 Thread 类 的 一 个 实例 : 这 是 将 以 并 发 方式 执行 该 代码 的 线程 。 
这 种 方式 可 以 创建 并 管理 Threag 对 象 ， 并 且 实 现 线程 间 的 同步 机 制 。 然 而 ， 这 也 会 带 来 一 些 问 
题 , 尤其 对 那些 具有 大 量 并 发 任务 的 应 用 程序 来 说 更 是 如 此 。 如 果 线 程 太 多 , 就 会 降低 应 用 程序 性 能 ， 
甚至 会 使 整个 系统 中 断 运 行 。 
Java 5 引入 了 执行 器 框架 解决 这 些 问 题 ， 并 且 提 供 了 一 个 高 效 的 解决 方案 ， 相 对 于 传统 并 发 机 制 
而 言 ， 该 解决 方案 更 便于 编程 人 员 使 用 。 
在 本 章 中 ， 我 们 将 通过 实现 如 下 两 个 使 用 执行 器 框架 的 例子 ， 介 绍 该 框架 的 基本 特征 。 
口 k- 最 近邻 算法 : 这 是 一 种 用 于 分 类 的 基本 机 器 学 习 算 法 。 它 基于 训练 数据 集中 个 与 测试 范 
例 标签 最 相似 的 范例 确定 测试 范例 的 标签 。 
口 客户 端 /服务 器 环境 下 的 并 发 处 理 : 当前 ， 能 够 将 信息 提供 给 成 千 上 万 个 客户 端的 应 用 程序 非 
常 重要 ， 采 用 最 佳 方式 实现 系统 的 服务 器 端 非常 必要 。 
第 4 章 和 第 5 章 将 介绍 执行 器 的 更 多 高 级 特性 。 


3.1.1 执行 器 的 基本 特征 


执行 需 的 主要 特征 如 下 。 
口 不 需要 创建 任何 Threag 对 象 。 如 果 要 执行 一 个 并 发 任务 ， 只 需要 创建 一 个 执行 该 任务 〈 例 


和 
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如 一 个 实现 Runnable 接口 的 类 ) 的 实例 并 且 将 其 发 送 给 执行 器 。 执 行 器 会 管理 执行 该 任务 
的 线程 。 
口 执行 器 通过 重新 使 用 线程 来 缩减 线程 创建 带 来 的 开销 。 在 内 部 ， 执 行 器 管理 着 一 个 线程 池 ， 
其 中 的 线程 称 为 工作 线程 ( worker-thread ) 。 如 果 向 执行 器 发 送 任务 而 且 存在 某 一 空闲 的 工作 
线程 ， 那 么 执行 器 就 会 使 用 该 线程 执行 任务 。 
口 使 用 执行 器 控 制 资源 很 容易 。 可 以 限制 执行 器 工作 线程 的 最 大 数目 。 如 果 发 送 的 任务 数 多 于 
工作 线程 数 ， 那 么 执行 器 就 会 将 任务 存 和 一 个 队列 。 当 工作 线程 完成 某 个 任务 的 执行 后 ， 将 
从 队列 中 调 取 另 一 个 任务 继续 执行 。 
口 你 必须 以 显 式 方式 结束 执行 器 的 执行 ， 必 须 告 诉 执行 器 完成 执行 之 后 终止 所 创建 的 线程 。 如 
若 不 然 ， 执 行 器 则 不 会 结束 执行 ， 这 样 应 用 程序 也 不 会 结束 。 
执行 器 还 有 一 些 更 有 用 的 特征 ， 使 其 更 加 强大 、 有 灵活 。 


3.1.2 ”执行 器 框架 的 基本 组 件 


执行 器 框架 中 含有 各 种 接口 和 类 ， 它 们 可 实现 执行 器 提供 的 全 部 功能 。 该 框架 的 基本 组 件 如 下 。 

口 Executor 接口 : 这 是 Executor 框架 的 基本 接口 。 它 仅 定义 了 一 个 方法 ， 即 允许 编程 人 员 

向 执行 器 发 送 一 个 Runnable 对 象 。 

口 ExecutorService 接口 : 该 接口 扩展 了 Executor 接口 并 且 包 括 更 多 方法 ， 增 加 了 该 框架 
的 功能 ， 例 如 以 下 所 述 。 
时 执行 可 返回 结果 的 任务 : Runnable 接口 提供 的 run () 方 法 并 不 会 返回 结果 , 但 是 借用 执行 
器 ， 任 务 可 以 返回 结果 。 
四 通过 单个 方法 调用 执行 一 个 任务 列表 。 
和 结束 执行 器 的 执行 并 且 等 待 其 终止。 

口 rhreadPoolExecutor 类 : 该 类 实现 了 Executor 接口 和 ExecutorService 接口 。 此 外 ， 
它 还 包含 一 些 其 他 获取 执行 器 状态 (工作 线 程 的 数量 、 已 执行 任务 的 数量 等 ) 的 方法 、 确 定 
执行 器 参数 (工作 线程 的 最 小 和 最 大 数目 、 空 闲 线程 等 待 新 任务 的 时 间 等 ) 的 方法 ， 以 及 支 
持 编程 人 员 扩展 和 调整 其 功能 的 方法 。 

口 Executors 类 : 该 类 为 创建 Executor 对 象 和 其 他 相关 类 提供 了 实用 方法 。 


3.2 第 一 个 例子 : Kk- 最 近邻 算法 


大 最 邻近 算法 是 一 种 用 于 监督 分 类 的 简单 机 器 学 习 算 法 。 该 算法 的 主要 组 成 部 分 如 下 所 示 。 

口 训练 数据 集 : 该 数据 集 由 实例 构成 ， 其 中 包括 定义 每 个 实例 的 一 个 或 者 多 个 属性 ， 以 及 一 个 
可 确定 实例 标签 的 特殊 属性 。 
口 距离 指标 : 该 指标 用 于 确定 训练 数据 集 的 实例 与 你 想 要 分 类 的 新 实例 之 间 的 距离 (或 者 说 相 
似 度 ) 。 
口 测试 数据 集 : 该 数据 集 用 于 度量 算法 的 行为 。 
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对 某 个 实例 进行 分 类 时 ， 该 算法 计算 该 实例 和 训练 数据 集 所 有 实例 的 距离 。 然 后 ， 选 取 磊 个 距离 
最 邻近 的 实例 并 且 查 看 这 些 实例 的 标签 。 实 例 最 多 的 标签 将 被 指派 为 输入 实例 的 标签 。 

在 本 章 中 ， 我 们 将 采用 UCI 机 器 学 习 资 源 库 (UCI Machine Learning Repository ) 的 Bank Marketing 
数据 集 。 为 了 度量 实例 之 间 的 距离 ， 我 们 将 采用 欧 氏 距离 ( Euclidean distance )。 该 指标 要 求实 例 的 所 
有 属性 必须 有 数值 。Bank Marketing 数据 集 的 一 些 属性 是 “类 别 型 的 "， 也 就 是 说 ,这 些 属性 可 以 从 一 
些 预定 义 值 中 取 值 , 这 样 就 不 能 直接 对 该 数据 集 使 用 欧 氏 距离 。 可 以 为 每 个 类 别 型 的 值 指派 一 个 序号 。 
例如 ， 对 于 婚姻 状况 来 说 ,可 用 0 代表 单身 ，1 代表 已 婚 , 2 代表 离婚 。 然而, 这 可 能 意味 着 离婚 的 人 
与 已 婚 的 人 之 间 的 距离 要 比 其 与 单身 的 人 之 间 的 距离 更 近 ， 而 这 一 点 也 值得 商 榨 。 如 果 使 所 有 的 类 别 
型 取 值 的 距离 相同 ， 还 要 为 此 单独 创建 属性 ， 例 如 已 婚 、 单 身 和 离婚 ， 而 每 个 属性 都 只 有 两 个 值 : 0 
( 否 ) 和 1( 是 )。 
数据 集 有 66 个 属性 和 两 个 可 能 的 标签 : 是 和 否 。 我 们 还 将 数据 划分 成 如 下 两 个 子 集 。 
口 训练 数据 集 : 有 39 129 个 实例 。 

口 测试 数据 集 : 有 2059 个 实例 。 

正如 第 1 章 中 所 述 ， 我 们 首先 实现 了 该 算法 的 串 行 版 本 。 然 后 ， 寻 找 该 算法 中 可 以 进行 并 行 处 理 
的 部 分 ， 之 后 采用 执行 器 框架 执行 并 发 任务 。 在 下 面 几 节 中 ,我 们 将 剖析 左 最 近邻 算法 的 串 行 版 本 和 
两 个 不 同 的 并 发 版 本 , 其 中 第 一 个 并 发 版 本 具有 非常 细 的 粒度 , 而 第 二 个 并 发 版 本 则 具有 较 粗 的 粒度 。 


3.2.1 Kk 最 近邻 算法 : 串 行 版 本 


我 们 在 knnclassifier 类 中 实现 大 最 近邻 算法 的 串 行 版 本 。 该 类 内 存储 了 训练 数据 集 和 数值 
( 用 于 确定 某 个 实例 标签 的 范例 数量 )。 


public class KnnClassifier { 


由 


private final List <? extends Sample>dqataSet: 
private int k; 


public KnnClassifier(List <? extends Sample>dataSet, int k) { 
this.dataSet=datasSet; 
tik; 
} 
KnnClassifier 类 仅 实 现 了 一 个 名 为 classify 的 方法 ， 该 方法 接收 一 个 Sample 对 象 作为 参 
数 ,而 该 对 象 中 仿 待 分 类 的 实例 ; classi fy 方法 返回 一 个 字符 串 , 其 中 含有 要 指派 给 该 实例 的 标签 。 
public String classify (Sample example) { 
该 方法 包括 三 个 主要 的 部 分 。 首 先 ， 计算 范例 和 训练 集 所 有 范例 之 间 的 距离 。 


Distance[] distances=new Distance[ldataSet.size()]; 
int index=0; 


for (Sample localExample : dataSet) { 
distances[index]=new Distance(); 
distances[index] .setIndex (index); 
distances[index] .setDistance (EuclideanDistanceCalculator 
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.calculate(localExample, example)); 
index++; 


} 
其 次 ,使 用 Arrays .sort () 方 法 按照 距离 从 低 到 高 的 顺序 排列 范例 。 


Arrays.sort (distances); 


最 后 ， 我 们 在 个 最 邻近 的 范例 中 统计 实例 最 多 的 标签 。 


Map<String, Integer> results = new HashMap<>(); 

for (int i = 0; i < k; i++) 1{ 
Sample localExample = dataSet.get (distances[i] .getIindex()); 
String tag = localExample.getTag(); 
results.merge(tag, 1, (a, b) ->a+b); 

} 

return Collections.max(results.entrySet ()， 

Map.Entry.comparingByValue()) .getKey () ; 


} 
为 了 计算 两 个 范例 之 间 的 距离 ， 可 以 使 用 以 辅助 类 形式 实现 的 欧 氏 距离 。 该 类 的 代码 如 下 : 


public class EuclideanDistanceCalculator { 
public static double calculate (Sample examplel, Sample example2) { 
double ret=0.0d; 


double[] datal=examplel .getExample(); 
double[] data2=example2 .getExample(); 


if (datal.length!=data2.length) { 
throw new IllegalArgumentException ("Vector doesn't have 
the same length"); 


} 


for (int i=0; i<datal.length; i++) { 
ret+=Math.pow(datal[i]-data2[i], 2); 
} 


return Math.sart (ret); 


} 
我 们 还 可 以 用 Distance 类 存放 sample 输入 和 训练 数据 集中 某 一 实例 之 间 的 距离 。 该 类 只 有 两 
个 属性 :训练 集 范例 的 索引 和 它 到 输入 范例 的 距离 。 此 外 ， 该 类 还 采用 Arrays .sort () 方 法 实现 了 
comparable 接口 。sample 类 中 存放 了 一 个 实例 。 它 只 有 一 个 双 精 度 型 数组 和 一 个 含有 该 实例 标签 
的 字符 中 


3.2.2 kk- 最 近邻 算法 : 细 粒 度 并 发 版 本 


如 果 你 分 析 一 下 天 最 近邻 算法 的 串 行 版 本 ， 就 会 发 现在 如 下 两 处 可 以 进行 算法 的 并 行 处 理 。 
口 距离 的 计算 : 在 每 次 循环 迭代 中 都 会 计算 输入 范例 和 训练 集 某 个 范例 之 间 的 距离 ， 而 每 次 迭 
代 均 独立 于 其 他 各 次 迭代 。 


UD 


o 
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口 距离 的 排序 : Java 8 在 Array 类 中 引入 了 parallelSort () 方 法 ， 可 以 使 用 并 行 方式 对 数组 

进行 排序 。 

在 算法 的 第 一 个 并 行 版 本 中 ,我 们 为 待 计算 范例 间 的 每 个 距离 创建 一 个 任务 ， 也 使 距离 数组 的 并 
发 排序 成 为 可 能 。 我 们 在 一 个 名 为 KnnclassifierParrallelIndqiviaqual 的 类 中 实现 了 这 一 版 本 
的 算法 。 该 类 中 存放 了 训练 数据 集 、 参 数 k、 执 行 并 行 任务 的 ThreadPoolExecutor 对 象 、 一 个 用 
于 存放 执行 右 中 工作 线程 数 的 属性 ， 以 及 一 个 用 于 指定 是 否 要 进行 并 行 排序 的 属性 。 

我 们 将 创建 一 个 线程 数 固 定 的 执行 器 ， 这 样 就 可 以 控制 该 执行 器 将 要 使 用 的 系统 资源 。 这 个 数值 
可 通过 系统 中 可 用 处 理 器 的 数目 (用 Runtime 类 的 availableProcessors () 方 法 获得 ) 乘 以 构造 
函数 中 参数 factor 的 值得 到 。factor 的 值 就 是 你 从 处 理 器 获得 的 线程 数 。 我 们 总 是 使 用 数值 1， 
不 过 你 也 可 以 测试 一 下 其 他 值 并且 对 比 结果 。 下 面 是 分 类 算法 的 构造 函数 : 


public class KnnClassifierParallelIndividual { 


private final List<? extends Sample>datasSet; 
private final int k; 

private final ThreadPoolExecutor executor; 
private final int numThreads; 

private final boolean parallelSort; 


public KnnClassifierParallelIndividual (List<? extends Sample>dataSet, 
init kK, “int factors 
booleanparallelSort) { 
this.dataSet=datasSet; 
this.k=k; 
numThreads=factor* (Runtime.getRuntime() .availableProcessors ()); 
executor= (ThreadPoolExecutor)Executors 
.newFixedThreadPool (numThreads); 
this.parallelSort=parallelSort; 
} 


要 创建 执行 器 , 我 们 要 使 用 Executors 工具 类 及 其 newFixedThreadPoo1 () 方 法 。 该 方法 接收 
的 是 你 打算 在 执行 器 中 使 用 的 工作 线程 数 。 执行 器 的 工作 线程 数 绝 不 会 超过 你 在 该 构造 函数 中 指定 的 
数目 。 该 方法 返回 一 个 ExecutorService 对 象 ， 但 是 我 们 将 其 强制 类 型 转换 为 一 个 ThreadPoo1- 
Executor 对 象 ， 以 便 访问 那些 在 ThreadPoolExecutor 类 中 提供 但 是 在 ExecutorService 接口 
中 没有 提供 的 方法 。 
该 类 还 实现 了 classify() 方 法 ， 它 接收 一 个 范例 作为 参数 并 且 返 回 一 个 字符 串 。 
首先 ， 为 每 个 需要 计算 的 距离 创建 一 个 任务 ， 并 且 将 其 发 送 给 执行 器 。 然 后 ， 主 线程 等 待 这 些 任 
务 执行 结束 ,为 了 控制 该 完成 过 程 ,我 们 使 用 了 Java 并 发 API 提供 的 一 种 同步 机 制 :countDownLatch 
类 。 该 类 允许 一 个 线程 一 直 等 待 ， 直 到 其 他 线程 到 达 其 代码 的 某 一 确定 点 。 该 类 需要 使 用 等 待 线程 数 
进行 初始 化 ， 它 实现 了 以 下 两 种 方法 。 
口 getDown () : 该 方法 用 于 减少 要 等 待 的 线程 数 。 
口 await () : 该 方法 挂 起 调用 它 的 线程 ， 直 到 计数 器 达到 0 为止 。 
在 本 例 中 ,我 们 使 用 将 在 执行 器 中 执行 的 任务 数 初始 化 countDownLatch 类 。 主 线程 为 其 调用 
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await () 方 法 ， 而 每 个 任务 完成 其 计算 时 调用 getDown () 方 法 : 


public String classify (Sample example) throws Exception { 


Distance[] distances=new Distancel[ldataSet.size()]; 
CountDownLatchendController=new CountDownLatch(dataSet.size()); 


int index=0; 
for (Sample localExample : dataSsSet) { 
IndividualDistanceTask task=new IndividualDistanceTask (distances, 
index, localExample, example, endController); 
executor.execute (task); 
index++; 
} 


endController.await (); 


然后 ,根据 parallelsort 属性 的 值 ,调用 Arrays .sort () 方 法 或 者 Arrays.parallelSort () 
方法 。 
if (parallelSort) { 
Arrays.parallelSort (distances);} 
} else { 


Arrays.sort (distances); 


} 

最 后 ， 计 算 指派 给 输入 范例 的 标签 。 这 一 部 分 代码 与 串 行 版 本 相同 。 

KnnClassifierPparallelIndividual 类 还 包含 一 个 用 于 关闭 执行 器 的 方法 ， 该 方法 调用 了 
shutdown () 方 法 。 如 果 你 不 调用 该 方法 ,应 用 程序 就 不 会 结束 ， 因 为 执行 器 所 创建 的 线程 仍然 存在 ， 
并 且 在 等 竺 处理 新 任务 。 在 此 之 前 提交 的 任务 已 执行 完毕 ， 而 新 提交 的 任务 会 被 拒绝 。 该 方法 并 不 会 
等 待 执行 器 完成 ， 它 会 立即 返回 ， 如 下 所 示 。 

public void destroy() { 


executor .Shutdown (); 


} 


本 例 的 关键 环节 就 是 IndaividualDistanceTask 类 。, 该 类 将 输入 范例 与 训练 数据 集中 某 个 范例 
之 间 的 距离 作为 一 项 并 发 任务 计算 。 它 存放 了 一 个 完整 的 距离 数组 ( 我们 将 只 确立 其 中 一 个 位 置 的 
值 )、 训 练 数据 集中 范例 的 索引 、 这 两 个 范例 和 用 于 控制 任务 结束 的 countDownLatch 对 象 。 
IndividualDistanceTask 类 实现 了 Runnable 接口 ， 因 此 可 以 在 执行 絮 中 执行 。 该 类 的 构造 阴 数 
如 下 : 


public class IndividualDistanceTask implements Runnable { 


private final Distance[] distances; 
private final int index; 

private final Sample localExample; 

private final Sample example; 

private final CountDownLatchendController; 


public IndividualDistanceTask (Distance[] distances, int index, Sample 
localExample,Sample example, 
CountDownLatchendController) { 
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this.distances=distances; 
this.index=index; 
this.localExample=localExample; 
this.example=example; 
this.endController=endController; 


} 
run() 方 法 采用 前 面 提 到 的 EuclidqeanDistancecalculator 类 计算 了 两 个 范例 之 间 的 距离 ， 


并 日 将 结果 存放 在 distances 数组 的 对 应 位 置 中 : 
QOverride 
public void run() { 
distances[index] = new Distance(); 


distances[index] .setIndex (index); 

distances[index] .setDistance(EuclideanDistanceCalculator 
.Calculate(localExample, example)); 

endController.countDown () ; 


} 


令 请 注意 ， 尽 管 所 有 任务 共享 distances 数组 ， 但 是 我 们 并 不 需要 采用 任何 同步 机 制 ， 
TIP 因为 每 个 任务 只 会 修改 该 数组 的 不 同位 置 。 


3.2.3 kK- 最 近邻 算法 : 粗 粒度 并 发 版 本 


上 一 节 中 给 出 的 并 发 解决 方案 可 能 存在 一 定 问题 : 执行 的 任务 太 多 了 。 想 想 看 ， 在 这 个 例子 中 ， 
我 们 有 29 000 多 个 训练 范例 ， 对 于 每 个 待 分 类 范例 需要 启动 29 000 个 任务 。 另 一 方面 ， 我 们 已 经 创 
建 的 执行 器 最 大 工作 线程 数 为 numrhreads。 因 此 ， 另 一 个 解决 方案 是 仅 启 动 numThreads 个 任务 ， 
并 且 将 训练 数据 集 划 分 为 numThreads 个 组 。 比 如 , 使 用 一 个 四 核 处 理 器 执行 这 个 例子 ,这样 每 个 任 
务 将 要 计算 输入 范例 与 大 约 7000 个 训练 范例 之 间 的 距离 。 

我 们 已 在 KnnclassifierParallelGroup 类 中 实现 了 该 解决 方案 。 它 与 KnnClassifier- 
ParallelInaividual 类 非常 相似 , 但 是 存在 两 个 主要 区 别 。 首 先是 classify () 方 法 的 初始 化 部 
分 。 现 在 ,我 们 只 有 numThreags 个 任务 ， 而 且 必 须 将 训练 数据 集 划 分 为 numThreads 个 子 集 。 


public String classify(Sample example) throws Exception { 


四 


Distance distances[] = new Distance[dataSet.size()]; 
CountDownLatchendController = new CountDownLatch (numThreads); 


int length = dataSet.size() / numThreads; 
intstartIndex = 0, endIndex = length; 


for (int i = 0; i <numThreads; i++) { 
GroupDistanceTask task = new GroupDistanceTask (distances, startIindex, 
endIndex, dataSet, example, endController); 
startIndex = endIindex; 
if (i <numThreads - 2) { 
endIindex = endIndex + length; 
} else { 
endIndex = dataSet.size(); 
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} 


executor.execute (task); 


} 


endController.await (); 


计算 每 个 任务 的 样本 数量 并 存放 在 变量 length 中 。 然 后 ， 为 每 个 线程 指派 待 处 理 样本 的 开始 索引 


和 结束 索引 。 除 最 后 一 个 线程 
而 言 ， 最 后 的 索引 值 即 为 数据 集 的 大 小 。 
其 次 ,该 类 使 月 


， 均 时 使 用 length 值 加 上 开始 索引 计算 结束 索引 。 


对 于 最 后 一 个 线程 


日 GroupDistanceTask 代替 了 inaiviaualDistanceTask。 这 两 个 类 之 间 的 主 


要 区 别 在 于 前 一 个 类 处 理 的 是 训练 数据 集 的 一 个 子 集 , 因此 它 存 放 的 是 整个 训练 数据 集 及 其 要 处 理 的 


这 部 分 数据 集 的 起 始 位 置 和 终止 位 置 。 


public class GroupDistanceTask implements Runnable { 


Private final Distance[] distances; 
private final intstartIndex, endIindex; 
private final Example example; 
private final List<? extends Example>datasSet; 
private final CountDownLatchendController; 
public GroupDistanceTask (Distance[] distances, intstartIindex, 
intendIndex, List<? extends Example>datasSet, 
Example example, CountDownLatchendController) { 
this.distances = distances; 
this.startIndex = startIindex; 
this.endIindex = endIindex; 
this.example = example; 
this.dataSet = dataSet; 
this.endController = endController; 
} 
run() 方 法 处 理 的 是 一 个 范例 集合 ， 而 不 仅仅 是 一 个 范例 。 


public voidq run() { 
for (int index = startIindex; index <endIndex; 
Sample localExample=dataSet .get (index); 
distances[index] = new Distance(); 
distances[index] .setIndex (index); 
distances[index] .setDistance (EuclideanDistanceCalculator 
.Calculate(localExample, 


index++) { 


} 
endController.countDown(); 


} 


3.2.4 对 比 解决 方案 


对 比 一 下 已 经 实现 的 大 最 近邻 算法 的 不 同 版 本 。 我 们 有 如 下 五 个 不 同 版 本 。 
口 串 行 版 本 。 

口 采用 串 行 排序 的 细 粒 度 并 发 版 本 。 
口 采用 并 发 排序 的 细 粒 度 并 发 版 本 。 
口 采用 串 行 排序 的 粗 粒 度 并 发 版 本 。 


HH 


炎 


example)); 
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口 采用 并 发 排序 的 粗 粒度 并 发 版 本 。 
为 了 测试 该 算法 ， 从 Bank Marketing 数据 集中 选取 了 2059 个 测试 实例 。 分 别 在 取 值 为 10、30 
和 50 的 情况 下 采用 上 述 五 个 版 本 的 算法 对 上 述 所 有 实例 进行 分 类 ， 并 且 度 量 各 个 版 本 的 执行 时 间 。 
我 们 采用 JMH 框架 执行 上 述 各 例 ， 该 框架 支持 用 Java 实现 微型 基准 测试 。 使 用 一 个 面向 基准 测试 的 
框架 是 一 种 比较 好 的 解决 方案 ， 使 用 其 中 的 currentTimeMillis() 方 法 或 者 nanoTime () 方 法 就 可 
以 测量 时 间 。 我 们 在 两 套 架构 上 分 别 将 其 执行 10 次 。 
口 一 台 计 算 机 配置 了 Intel Core i5-5300 CPU、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 器 汪汪 
有 两 个 核 ， 每 个 核 可 以 执行 两 个 线程 ， 这 样 我 们 就 有 了 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 CPU 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 有 


四 个 核 。 

执行 时 间 如 下 所 示 ( 单位 : 秒 )。 
算 法 k AMD Intel 
10 309.99 126.26 
串 行 30 310.22 125.65 
50 309.59 126.48 
10 153.19 89.97 
细 粒 度 串 行 排 请 30 152.85 90.61 
50 155.01 89.97 
10 120.10 76.81 
细 粒 度 并 发 排 请 30 122.00 76.69 
50 125.61 73.33 
10 138.28 77.99 
粗 粒 度 串 行 排序 30 137.54 78.69 
50 137.85 78.25 
10 107.62 66.48 
粗 粒度 并 发 排 语 30 107.36 65.93 
50 106.61 66.22 


我 们 可 以 得 出 以 下 结论 。 

口 参数 值 x ( 10、30 和 50 ) 的 选择 对 算法 的 执行 时 间 并 无 影响 。 对 于 这 三 个 取 值 来 说 ， 五 个 版 

本 在 两 套 架构 上 都 表现 出 相似 的 结果 。 

口 正如 我 们 所 期 望 的 那样 ， 使 用 Arrays .parallelSort () 方 法 进行 并 发 排序 ， 该 算法 的 细 粒 

度 并 发 版 和 粗 粒 度 并 发 版 在 性 能 上 都 会 有 显著 提升 。 

口 各 并 发 版 本 都 提升 了 应 用 程序 的 性 能 ， 但 是 采用 串 行 或 并 行 排序 的 粗 粒 度 版 本 其 性 能 实现 了 
较 大 提升 。 

因此 , 如 果 与 串 行 版 本 比较 求 取 加 速 比 , 那么 该 算法 的 最 好 版 本 是 采用 并 行 排序 的 粗 粒度 解决 方案 。 

也 99.218 


$= serial 
T $3;235 


concurrent 


良好 的 并 发 解决 方案 可 以 带 来 巨大 的 性 能 提升 ， 反之 则 相反 。 


=1.86 


这 个 例子 说 明 ， 选 择 一 
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3.3 第 二 个 例子 : 客户 端 /服务 器 环境 下 的 并 发 处 理 


客户 端 /服务 器 模型 是 一 种 软件 架构 ,基于 这 种 模型 的 应 用 程序 被 划分 为 两 个 部 分 : 提供 资源 ( 数 
据 、 操 作 、 打 印 机 、 存 储 等 ) 的 服务 器 端 和 使 用 服务 器 端 所 提供 的 资源 的 客户 端 。 传 统 上 ， 这 种 架构 
用 于 企业 领域 , 但 是 随 着 互联 网 的 蓬勃 发 展 , 至 今 它 仍然 是 一 个 很 现实 的 主题 。 你 也 可 以 将 Web 应 用 
程序 视 为 客户 端 /服务 器 应 用 程序 ， 其 服务 器 部 分 就 是 在 Web 服务 器 中 执行 的 应 用 程序 后 台 部 分 ， 而 
Web 浏览 器 则 执行 应 用 程序 客户 端 部 分 。SOA ( service-oriented architecture， 面 向 服务 的 架构 ) 是 客 
户 端 /服务 器 架构 的 另 一 个 例子 ， 其 中 公开 的 Web 服务 即 为 其 服务 器 部 分 ， 而 使 用 这 些 服务 的 各 种 客 
户 端 则 是 客户 端 部 分 。 
在 客户 端 /服务 器 环境 中 , 我 们 通常 都 有 一 台 服 务 器 和 很 多 使 用 该 服务 器 所 提供 服务 的 客户 端 ， 
此 设计 这 样 的 系统 时 ， 服 务 器 的 性 能 方面 非常 重要 。 

在 本 节 , 我 们 将 实现 一 个 简单 的 客户 端 /服务 器 应 用 程序 。 它 将 对 某 银行 发 布 的 发 展 指数 进行 数据 
搜索 。 

该 服务 器 主要 有 以 下 特点 。 
口 客户 端 与 服务 器 都 使 用 套 接 字 连 接 。 
口 客户 端 将 以 字符 串 形 式 发 送 查 询 ， 而 服务 器 将 用 另 一 个 字符 串 返 回 结 果 。 
口 服务 器 可 以 啊 应 三 种 不 同 查询 。 

和 四 Query: 这 种 查询 的 格式 是 q;codCountry;codIndicator;year， 其 中 coqcountry 是 
国家 代码 ， codIindicator 是 指数 代码 ， 而 year 是 一 个 可 选 参数 ， 表示 你 想 要 查询 的 年 份 。 
服务 器 的 响应 信息 将 以 单个 字符 串 的 形式 返回 。 

上 Report: 这 种 查询 的 格式 是 r;codIndicator, 其 中 codIndicator 是 你 要 制 表 的 指数 代 
码 。 服 务 器 将 以 单个 字符 串 形式 响应 各 年 份 所 有 国家 该 指数 的 平均 值 。 
得 Stop: 这 种 查询 的 格式 是 z; 接收 到 该 命令 时 ， 服 务 器 将 停止 执行 。 
口 在 其 他 情况 下 ， 服 务 器 将 返回 一 个 错误 消息 。 
与 前 面 的 例子 相同 , 下文 将 展示 如 何 实现 该 客户 端 /服务 器 应 用 程序 的 串 行 版 本 。 然 后 , 将 展示 如 
何 使 用 执行 器 实现 其 并 发 版 本 。 最 后 ， 我 们 将 比较 这 两 种 解决 方案 ， 以 审视 在 这 种 情况 下 使 用 并 发 处 
理 的 优点 。 


3.3.1 客户 端 /服务 器 : 串 行 版 


服务 器 应 用 程序 的 串 行 版 本 主要 有 三 个 部 件 。 

口 DAO (data access object， 数 据 访问 对 象 ) 部 件 ， 负 责 访问 数据 并 且 获 取 查询 结果 。 
口 命令 部 件 ， 由 各 种 查询 的 命令 组 成 。 

口 服务 器 部 件 ， 接 收 查询 ， 调 用 对 应 命令 ， 并 且 向 客户 端 返回 结果 。 
下 面 仔细 了 解 一 下 上 述 部 件 。 

1. DAO 部 件 

正如 我 们 前 面 提 到 的 ， 服 务 器 将 针对 发 展 指数 进行 数据 搜索 。 该 数据 以 CSV 文件 存放 。 该 应 有 
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程序 中 的 DAO 组 件 将 整个 文件 加 载 到 内 存 的 一 个 List 对 象 中 。 它 为 涉及 的 每 个 查询 都 实现 一 个 方 
法 ， 而 这 些 方法 通过 搜索 该 列表 查找 数据 。 

在 此 我 们 不 介绍 这 个 类 的 代码 ， 因 为 很 容易 实现 ， 而 且 它 也 不 是 本 书 所 要 讲述 的 重点 内 容 

2. 命令 部 件 

命令 部 件 是 DAO 部 件 和 服务 器 部 件 之 间 的 中 介 。 我 们 实现 了 一 个 基本 抽象 类 commanda， 它 是 所 
有 命令 的 基 类 。 


public abstract class CommanaQ { 


protected final String[] command; 

public Command (String [] command) { 
this.command=command; 

} 


public abstract String execute (); 


} 


然后 ， 我 们 为 每 一 个 查询 实现 了 一 条 命令 。 查 询 在 oueryCommand 类 中 实现 ,其 execute () 方 
法 如 下 所 示 : 


public String execute() { 
WDIDAOdao=WDIDAO.getDAO(); 


if (command.length==3) { 

return dao.query (command[1], command[2]); 
} else if (command.length==4) { 
try { 

return dao.query (command[1], command[2], 


Short .parseShort (command[3])); 
} catch (Exception e) { 


return "ERROR;Bad Command"; 
} 
} else { 
return "ERROR;Bad Command"; 
} 
} 


Report 查询 在 Reportcommang 中 实现 ， 其 execute() 方 法 如 下 所 示 : 
@Override 


public String execute() { 


WDIDAOdao=WDIDAO .getDAO () ; 
return dao.report (command[1]); 


} 


Stop 查询 在 Stopcommang 类 中 实现 ， 其 execute() 方 法 如 下 所 示 : 


QOverride 
public String execute() { 
return "Server stopped"; 


} 
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最 后 ， 出 错 的 情况 通过 Errorcommand 类 处 理 ， 其 execute() 方 法 如 下 所 示 : 


@Override 
public String execute() { 
return "Unknown command: "+command[0]; 


} 

3. 服务 器 部 件 

最 后 ， 服 务 吉 部 件 在 Serialserver 类 中 实现 。 首 先 ， 它 通过 调用 getDao () 方 法 初始 化 DAO。 
其 主要 目的 是 使 用 DAO 加 载 所 有 数据 。 


public class SerialServer { 


public static void main(String[] args) throws IOException { 
WDIDAOdao = WDIDAO.getDAO(); 
booleanstopServer = false; 
System.out .println("Initialization completed."); 


try (ServerSocketserverSocket = new ServerSocket (Constants 
.SERIAL PORT)) { 


此 后 ， 我 们 需要 执行 一 个 循环 ， 直 到 该 服务 器 接收 到 一 个 Stop 查询 为 止 。 该 循环 执行 以 下 四 步 。 
口 接收 来 自 客户 端的 查询 。 

口 解析 并 分 割 该 查询 的 要 素 。 

口 调用 对 应 的 命令 。 

口 向 客户 端 返 回 结 

这 四 个 步骤 的 实现 如 下 述 代 码 片段 所 示 : 


do { 
try (Socket clientSocket = serverSocket .accept () ; 
PrintWriter out = new PrintWriter(clientSocket.getOutputStream(), 


true); 
BufferedReader in = new BufferedReader (new InputStreamReader 
(clientSocket .getInputStream()));) { 
String line = in.readLine(); 
Command command; 
String[] commandData = line.split(";"); 
System.out .println("Command: " + commandData[0]); 
Switch (commandData[0]) { 
Case "q": 


System.out .println("Query"); 
command = new QueryCommand (commandData); 
break; 

Case "r": 
System.out .println("Report"); 
command = new ReportCommand (commandData); 
break; 

Case "2Z": 
System.out .println("Stop"); 
command = new StopCommand (commandData); 
stopServer = true; 
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break; 
default: 
System.out .println("Erro 
command = new ErrorComma 
} 
String response = command.ex 
System.out .println (response) 
} catch (IOException e) { 
e.printSstackTrace(); 
} 


} while (!stopServer); 


3.3.2 ”客户 端 /服务 器 : 并 行 版 本 


Es 
nd (commandData); 


ecute (); 


’ 


在 串 行 版 本 中 ， 服 务 器 部 件 存在 一 个 非常 严重 的 缺陷 。 当 处 理 一 个 查询 时 并 不 能 兼顾 其 他 查询 。 
如 果 响 应 每 个 查询 请 求 或 特定 请 求 需要 耗费 大 量 时 间 ， 那 么 服务 器 的 性 能 就 会 很 低 。 


询 的 所 有 处 理 委托 该 线程 ， 并 开始 处 理 新 上 


我 们 可 以 使 用 并 发 处 理 获 得 更 好 的 性 能 。 如 果 服 务 器 收 到 请 求 后 创建 了 一 个 线程 ， 它 可 以 将 该 查 


的 请 求 。 这 种 方法 也 存在 一 些 问题 。 如 果 我 们 接收 到 了 大 量 


查询 ， 则 会 导致 系统 因 创 建 太 多 线程 而 不 卉 
制服 务 器 所 使 用 的 资源 ， 并 获得 比 串 行 版 本 更 好 的 性 能 。 


重负 。 但 是 如 果 我 们 使 用 线程 数 固 定 的 执行 器 ， 就 可 以 控 


为 了 使 用 执行 器 将 串 行 版 服务 器 部 件 转换 为 并 发 版 ， 必 须 修改 服务 器 端 。DAO 部 件 是 相同 的 ， 


虽然 我 们 也 已 经 更 改 了 实现 命令 部 件 的 类 名 , 但 是 实现 过 程 几乎 相同 
为 现在 它 有 了 更 多 职能 。 下 面 我 们 了 解 一 下 并 发 版 服务 器 部 件 的 实现 


1. 服务 器 部 件 
并 发 服务 器 部 件 在 ConcurrentsServ 


只 有 Stop 查询 发 生 了 改变 ， 
田 疗 。 


i 


er 部 件 中 实现 。 我 们 为 其 加 入 了 两 项 串 行 服务 器 不 具备 的 


要 素 : 在 Parallelcache 类 中 实现 的 缓存 系统 和 在 Logger 类 中 实现 的 日 志 系 统 。 首 先 ， 并 发 服务 


需 调 用 getDAO() 方 法 初始 化 DAO 部 分 。 


主要 目标 是 DAO 加 载 所 有 数据 并 且 使 用 Executors 类 的 


newFixedThreadPool () 方 法 创建 一 个 ThreadPoolExecutor 对 象 。 该 方法 接收 的 是 我 们 要 在 服务 


器 中 使 用 的 最 大 工作 线程 数 。 执 行 器 绝 不 会 超过 该 工作 线程 数 。 要 获得 工作 线程 数 ， 我 们 要 使 用 


Runtime 类 的 availableProcessors () 


public class ConcurrentServer { 


private static ThreadPoolExecu 
private static ParallelCache c 
private static ServerSocketser 
private static volatileboolean 
public static void main(String 
serverSocket=null; 
WDIDAOdao=WDIDAO .getDAO () ; 
executor= (ThreadPoolExecutor 
(Runtime.ge 
cache=new ParallelCache(); 
Logger.initializeLog(); 


System.out .println("Initiali 


方法 获取 系统 的 核 数 。 


tor executor; 
ache; 
verSocket; 
stopped=false; 
[] args) { 


) Executors.newFixedThreadPool 
tRuntime() .availableProcessors ()); 


zation completed."); 
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布尔 变量 stopped 被 声明 为 volatile 型 ， 因 为 另 一 个 线程 可 以 更 改 它 。 当 stopped 变量 被 另 
一 个 线程 设置 为 true 时 ，volatile 关键 字 确 保 了 这 一 改变 在 主 方法 中 可 见 。 如 果 没 有 volatile 
关键 字 ， 由 于 CPU 缓存 或 者 编译 优化 方面 的 原因 ， 这 样 的 改变 则 不 可 见 。 然 后 ， 我 们 初始 化 
ServerSocket 以 监听 请 求 : 


serverSocket = new ServerSocket (Constants.CONCURRENT_ PORT); 


我 们 不 能 使 用 一 个 try-with-resources 语句 管理 服务 器 socket。 当 我 们 收 到 stop 命令 后 需 
要 关闭 服务 器 , 但 是 服务 器 正在 等 待 serversocket 对 象 的 accept () 方 法 。 为 了 迫使 服务 器 丢弃 该 
方法 ， 需 要 显 式 关 闭 服务 器 (我 们 将 在 shutaown () 方 法 中 执行 这 一 操作 )， 因 此 不 能 使 用 
try-with-resources 语句 关闭 socket。 

此 后 ， 我 们 会 执行 一 个 循环 ， 直 到 服务 器 接收 到 一 个 Stop 查询 为 止 。 该 循环 执行 如 下 三 个 步 又。 
口 从 客户 端 接收 一 个 查询 。 

口 创建 一 个 任务 处 理 该 查询 。 
口 将 该 任务 发 送 给 执行 器 。 
下 面 的 代码 片段 展示 了 这 三 个 步骤 : 
do { 
Er 
Socket clientSocket = SerVerSocket .accept (); 
RequestTask task = new RequestTask (clientSocket); 
executor.execute (task); 
} catch (IOException e) { 
e.printStackTrace(); 

} while (!stopped); 

最 后 , 一 旦 服务 器 完成 了 执行 ( 离开 了 该 循环 )， 则 必须 使 用 awaitTermination () 方 法 结束 该 
执行 器 。 该 执行 器 完成 execution () 方 法 前 ， 该 方法 将 一 直 阻 塞 主线 程 。 然 后 ， 关 闭 缓存 系统 ， 等 
待 一 条 表明 服务 器 执行 完毕 的 消息 ， 如 下 所 示 : 

executor.awaitTermination(1, TimeUnit.DAYS); 

System.out .println("Shutting down cache"); 


cache.shutdown(); 
System.out .println("Cache ok"); 


System.out .println("Main server thread ended"); 

我 们 已 经 额外 加 入 了 两 种 方法 : 一 种 是 getExecutor () 方 法 ， 它 返回 了 用 于 执行 并 发 任务 的 
ThreadPoolExecutor 对 象 ; 另 一 种 是 shutdown () 方 法 ， 它 用 于 按照 顺序 结束 服务 器 的 执行 器 ， 
该 方法 调用 了 执行 器 的 shutdown () 方 法 并 且 关 闭 ServerSocket。 


public static voidq shutdown() { 
stopped = true; 
System.out .println("Shutting down the server..."); 
System.out .println("Shutting down executor"); 
executor.shutdown(); 
( 
( 


System.out .println("Executor ok"); 
System.out .println("Closing socket"); 
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try { 
serverSocket .close (); 
System.out .println("Socket ok"); 
} catch (IOException e) { 
e.printSstackTrace(); 
} 
System.out .println("Shutting down logger"); 
Logger.sendMessage ("Shutting down the logger"); 
Logger.shutdown(); 
System.out .println("Logger ok"); 


} 

在 并 发 服务 器 中 有 一 个 关键 部 件 : 处 理 每 个 客户 端 请 求 的 RequestTask 类 。 该 类 实现 了 Runnable 
接口 ， 这 样 它 就 可 以 以 并 发 方式 在 执行 絮 中 执行 。 其 构造 函数 将 接收 用 于 与 客户 端 通信 的 Socket 
参数 。 


public class RequestTask implements Runnable { 


private final Socket clientSocket; 


public RequestTask (Socket clientSocket) { 
this.clientSocket = clientSocket; 


} 
响应 每 个 请 求 时 ，run () 方 法 所 完成 的 操作 与 串 行 服务 器 所 做 的 操作 相同 。 
口 接收 客户 端 查询 。 

口 解析 并 分 割 该 查询 的 要 素 。 
口 调用 相应 的 命令 。 

口 向 客户 端 返 回 结果 。 

其 代码 片段 如 下 所 示 : 


public voidq run() { 


try (PrintWriter out = new PrintWriter(clientSocket 
.getOutputStream(), true); 

BufferedReader in = new BufferedReader (new InputStreamReader 

(clientSocket .getIinputStream()));) { 

String line = in.readLine(); 

Logger.sendMessage (line); 

ParallelCache cache = ConcurrentServer.getCache(); 

String ret = cache.get (line); 


EE et = WulLE) 
Command command; 
String[] commandData = line.split(";"); 


System.out .println("Command: " + commandData[0]); 
Switch (commandData[0]) { 
Case "qdq": 


System.err.println("Query"); 
command = new ConcurrentQueryCommand (commandData); 
break; 

Case "r" 
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System.err.println("Report"); 
command = new ConcurrentReportCommand (commandData); 
break; 
Case "Ss": 
System.err.println("Status"); 
command = new ConcurrentStatusCommand (commandData); 
break; 
Case "2Z": 
System.err.println("Stop"); 
command = new ConcurrentStopCommand (commandData); 
break; 
default: 
System.err.println ("Error"); 
command = new ConcurrentErrorCommand (commandData); 
break; 
} 
ret = command.execute(); 
if (command.isCacheable()) { 
cache.put (line, ret); 
} 
} else { 
Logger.sendMessage ("Command "+line+" was found in the cache"); 
} 
System.out .println (ret); 
} catch (Exception e) { 
e.printStackTrace(); 
} finally { 
try { 
clientSocket.close(); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
3 
} 
2. 命令 部 件 
正如 前 面 的 代码 片段 所 示 , 我 们 重 命名 了 命令 部 件 中 的 所 有 类 。 除了 ConcurrentstopCommand 
类 之 外 ， 其 他 实现 过 程 都 相同 。 现 在 ,命令 部 件 调用 concurrentserver 类 的 shnutdown () 方 法 按 
照 顺 序 结束 服务 器 的 执行 。execute () 方 法 的 源 代码 如 下 : 
@Override 
public String execute() { 


ConcurrentServer.shutdown(); 


return 


} 


同样 ， 现在 Commanq 


命令 的 结果 ， 


3.3.3 额 
我 们 已 经 


"Server stopped"; 


则 该 方法 返 


回 true, 


类 包含 了 一 个 新 的 Boolean 型 的 iscacheable() 
否则 返 


回 false。 


一 些 额 外 的 并 发 服务 器 组 件 : 


方法 ， 如 果 组 存 


返回 服务 器 状态 信息 的 新 命令 ， 存 储 命令 


1 存放 了 
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以 便 在 重复 请 求 时 节省 时 间 的 缓存 系统 ， 以 及 记录 错误 信息 和 调试 信息 的 日 志 系统 。 接 下 来 将 介绍 这 
些 组 件 。 

1. 状态 命令 

首先 ， 我 们 有 了 一 种 新 的 查询 。 它 有 自己 的 格式 ， 并 且 通 过 concurrentStatusCommanad 类 处 
理 。 该 类 可 获取 服务 器 所 使 用 的 ThreadPoolExecutor 对 象 ， 并 且 获 取 该 执行 器 的 相关 状态 信息 : 

public class ConcurrentStatusCommand extends Cormmand { 


public ConcurrentStatusCommand (String[] command) { 
super (Command) ; 


setCacheable (false); 


} 

@Override 

public String execute() { 
StringBuildersb=new StringBuilder(); 
ThreadPoolExecutor executor=ConcurrentServer.getExecutor(); 
Logger.sendMessage (sb.tostring()); 
return sb.tostring(); 

} 

} 


可 以 从 该 服务 器 获取 的 信息 如 下 。 
口 getActiveCount () : 该 方法 返回 执行 并 发 任务 的 大 致 任务 数 。 线 程 池 中 可 能 有 更 多 线程 ， 
邮 但 是 它们 都 是 空闲 的 。 
电 口 getMaximumPoolSize() : 该 方法 返回 了 执行 器 可 拥有 的 工作 线程 的 最 大 数目 。 
口 getCorePoolSize(); 该 方法 返回 了 执行 器 拥有 的 核心 工作 线程 数目 。 这 个 数字 决定 了 线 
程 池 中 线程 数 的 最 小 值 。 
口 getPoolsize(): 该 方法 返回 了 当前 线程 池 中 的 线程 数 。 
口 getLargestPoolSize(): 该 方法 返回 了 线程 池 在 执行 期 间 的 最 大 线程 数 。 
口 getCompletedTaskCount () : 该 方法 返回 了 执行 器 已 经 执行 的 任务 数 。 
口 getTaskCount () : 该 方法 返回 了 已 预定 执行 任务 的 大 致 数目 。 
口 getoueue () .size(): 该 方法 返回 了 在 任务 队列 中 等 待 的 任务 数 。 
因为 使 用 Executor 类 的 newFixedThreadPoo1l () 方 法 创建 了 执行 器 ， 那 么 它 的 最 大 工作 线程 
数 和 核心 工作 线程 数 相同 。 
2. 缓存 系统 
并 行 服务 器 中 带 有 一 个 缓存 系统 ， 其 作用 是 避免 重复 搜索 那些 近期 已 经 进行 过 的 数据 。 该 缓存 系 
统 有 如 下 三 个 要 素 。 
口 cacheItem 类 : 该 类 用 于 描述 在 缓存 中 存放 的 每 个 元 素 ， 而 且 它 有 如 下 四 个 
晶 在 绥 存 中 存储 的 命令 。 我 们 将 ouery 和 Report 命令 存放 在 缓存 之 中 。 
晶 该 命令 所 产生 的 响应 。 
和 缓存 中 某 一 项 的 创建 日 期 。 
昌 该 项 在 缓存 中 的 最 后 访问 时 间 。 


性 。 


再 
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口 cleancacheTask 类 : 如 果 在 缓存 中 存储 所 有 命令 并 从 未 删除 ， 那 么 缓存 的 大 小 就 会 无 限制 
增加 。 为 了 避免 这 种 情况 ， 我 们 还 可 以 创建 一 个 任务 删除 缓存 中 的 元 素 ， 并 将 该 任务 作为 一 
个 mhread 对 象 实现 。 有 如 下 两 种 供 选 方案 。 

晶 你 可 以 为 缓存 设 定 最 大 规模 。 如 果 绥 存 中 的 元 素数 大 于 最 大 值 , 就 可 以 将 那些 近期 很 少 访问 
的 元 素 删除 。 
里 你 可 以 删除 缓存 中 那些 在 某 个 预定 时 段 内 未 被 访问 的 元 素 。 我 们 将 要 采用 的 就 是 这 种 方式 。 

口 ParallelCache 类 : 该 类 实现 了 在 缓存 中 存储 和 检索 各 元 素 的 操作 。 为 了 在 缓存 中 存储 数 
据 ， 我 们 采用 了 一 种 concurrentHashMap 数据 结构 。 因 为 缓存 由 服务 器 所 有 任务 共享 ， 我 
们 必须 采用 一 种 同步 机 制 保护 对 缓存 的 访问 ， 以 避免 数据 竞争 条 件 。 有 如 下 三 种 供 选 方案 。 
昌 我 们 可 以 使 用 一 种 non-synchronized 型 的 数据 结构 ( 例如 HashMap ) 并 且 加 入 必要 代码 

同步 对 该 数据 结构 的 各 种 访问 ， 例如， 采用 锁 。 你 也 可 以 使 用 collections 类 的 
synchronizedMap () 方 法 将 一 个 HashMap 转换 为 一 个 synchronized 型 结构 。 
图 使 用 synchronized 型 的 数据 结构 ， 例如 Hashtable。 对 于 这 种 情况 ， 我 们 不 会 形成 数据 
竞争 条 件 ， 但 是 性 能 会 更 好 。 
田 使 用 并 发 数据 结构 ， 例 如 concurrentHashMap 类 ， 该 类 消除 了 出 现 数据 竞争 条 件 的 可 能 
性 ， 而 且 该 类 被 优化 用 于 高 并 发 环境 中 。 我 们 将 使 用 concurrentHashMap 类 的 对 象 实现 
这 种 方案 。 
CleanCacheTask 类 的 代码 如 下 : 


public class CleanCacheTask implements Runnable { 


private final ParallelCache cache; 


public CleanCacheTask (ParallelCache cache) { 
this.cache = cache; 


} 


@Override 
public voidq run() { 
try { 
while (!Thread.currentThread().interrupted()) { 


TimeUnit.SECONDS.sleep(10); 
cache.cleanCache () ; 


} catch (InterruptedException e) { 


该 类 中 有 一 个 Parallelcache 对 象 , 并 且 每 10 秒 钟 , 就 会 执行 ParallelCache 实例 的 cleanCache () 
方法 。Parallelcache 类 有 五 种 不 同 的 方法 。 首 先 ， 该 类 的 构造 函数 初始 化 了 该 缓存 的 元 素 。 它 创 
建 了 ConcurrentHashMap 对 象 并 且 启 动 了 一 个 执行 CleancacheTask 类 的 线程 ， 
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public class ParallelCache { 


private final ConcurrentHashMap<String, CacheItem> cache; 
private final CleanCacheTask task; 
private final Thread threadgd; 
public static intMAX_LIVING TIME MILLIS = 600_000; 
public ParallelCache() { 
cache=new ConcurrentHashMap<>();} 
task=new CleanCacheTask (this); 
thread=new Thread (task); 
thread.start (); 


} 


然后 ， 该 类 中 还 有 两 个 方法 可 用 于 存储 和 检索 缓存 中 的 元 素 。 我 们 使 用 put () 方 法 将 元 素 插入 
HashMap， 并 使 用 get () 方 法 在 HashMap 中 检索 元 素 : 


public void put (String command, String response) { 
CacheItem item = new CacheItem(command, response); 
cache.put (command, item); 


public String get (String command) { 
CacheItem item=cache.get (command); 
if (item==null) { 
return null; 
} 
item.setAccessDate (new Date()); 
return item.getResponse(); 


} 
然后 ，cleancacheTask 类 清理 缓存 的 方法 如 下 : 


public void cleanCache() { 
Date revisionDate = new Date(); 
Iterator<CacheItem> iterator = cache.values().iterator(); 


while (iterator.hasNext()) { 
CacheItem item = iterator.next(); 
if (revisionDate.getTime() - item.getAccessDate() .getTime() 


>MAX_LIVING_ TIME MILLIS) { 
iterator.remove(); 


} 
最 后 ， 还 有 一 个 用 于 关闭 绥 存 的 方法 ,该 方法 可 中 断 执行 cleancacheTask 类 的 线程 ， 并 且 返 
回 缓存 中 存储 的 元 素数 。 


public voidq shutdown() { 
thread.interrupt (); 


public intgetItemCount() { 
return cache.size(); 
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在 本 章 所 有 例子 中 ， 我 们 都 使 用 system.out .println() 方 法 将 信息 反馈 到 控制 台 。 当 你 实现 
的 是 一 个 准备 在 生产 环境 中 执行 的 企业 应 用 程序 时 , 最 好 的 方法 就 是 使 用 日 志 系 统 记录 调试 信息 和 错 
误 信息 。1og4j 是 Java 中 最 受 欢 迎 的 日 志 系统 。 在 本 例 中 , 我 们 将 实现 自己 的 日 志 系统 , 该 系统 采用 
了 生产 者 /消费 者 并 发 设计 模式 。 使 用 日 志 系 统 的 任务 将 作为 生产 者 , 而 把 日 志 信息 写 人 文件 的 特别 任 
务 〈 作 为 一 个 线程 执行 ) 将 作为 消费 者 。 该 日 志 系统 的 组 件 如 下 。 
口 LogTask: 该 类 实现 了 日 志 消费 者 ， 它 可 每 10 秒 钟 读 取 队列 
件 。 该 类 通过 一 个 Thread 对 象 来 执行 。 
D Logger: 这 是 日 志 系 统 的 主 类 。 它 有 一 个 队列 ， 生 产 者 将 存 和 信息， 而 消费 者 将 读 取 这 些 信 
息 。 它 还 提供 了 一 个 可 将 消息 加 入 队列 的 方法 ， 以 及 一 个 获取 队列 存储 的 所 有 消息 并 将 其 写 


存储 的 日 志 消 息 并 将 其 写 入 


4 


入 磁盘 的 方法 。 
实现 该 队列 , 与 缓存 系统 相同 , 我 们 需要 采用 一 种 并 发 数据 结构 , 以 避免 任何 数据 不 一 致 的 错误 。 
我 们 有 如 下 两 个 供 选 方案 。 
口 使 用 阻塞 型 数据 结构 。 当 队列 为 满 〈 在 我 们 的 例子 中 ， 队 列 永 不 会 满 ) 或 者 为 空 时 ， 将 会 阴 
塞 线程 。 
口 使 用 非 阻塞 型 数据 结构 。 如 果 队 列 为 满 或 者 为 空 时 ， 将 会 返回 一 个 特定 值 。 


我 们 选择 了 一 种 非 阻塞 型 数据 结构 ， 即 concurrentLinkedoueue 类 ， 它 实现 了 Queue 接口 。 
我 们 使 用 offer () 方 法 将 元 素 搬 入 队列 ， 使 用 pol1 () 方 法 从 队列 中 获取 元 素 。 
LogTask 类 的 代码 非常 简单 : 


public class LogTask implements Runnable { 


@Override 
public voidq run() { 
Gry 
while (Thread.currentThread().interrupted()) { 


TimeUnit.SECONDS.sleep(10); 
Logger .writeLogs () ; 
} catch (InterruptedException e) { 
} 
Logger .writeLogs () ; 
3 
} 


该 类 实现 了 Runnable 接口 , 而 日 在 run() 方 法 中 , 每 10 秒 钟 调用 一 次 Logger 类 的 writeLogs () 
方法 。 

Logger 类 有 5 个 不 同 的 静态 方法 ,首先 , 用 一 个 静态 代码 块 初始 化 并 启动 执行 LogTask 的 线程 ， 
并 且 该 线程 创建 用 于 存放 日 志 数据 的 concurrentLinkedoueue 类 : 


public class Logger { 


private static ConcurrentLinkedQueue<String>logQueue = new 
ConcurrentLinkedQueue<String>(); 
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private static Thread thread; 


private static final String LOG_ FILE = Paths.get ("output", 
"server.10g") .toString(); 
static { 
LogTask task = new LogTask(); 
thread = new Thread (task); 
} 


然后 , Logger 类 中 含有 一 种 senqMessage () 方 法 , 该 方法 接收 一 个 字符 串 作 为 参数 并 |] 
息 存放 在 队列 之 中 。 该 方法 使 用 offer () 方 法 存放 消息 : 


public static void sendMessage (String message) { 
logQueue.offer (new Date()+": "+message); 


} 
Logger 类 中 的 关键 方法 是 writeLogs () 类。 该 方法 使 用 concurrentLinkedQueue 类 的 pol1 () 
方法 获取 并 删除 队列 中 存储 的 所 有 日 志 消 息 ， 并 将 它们 写 入 文件 。 


public static void writeLogs() { 
String message; 
Path path = Paths.get (LOG_ FILE); 
try (BufferedWriterfileWriter = Files.newBufferedWriter (path, 
StandardOpenOption .CREATE, 
StandardOpenOption.APPEND)) { 
while ((message = logQueue.poll1()) != null) { 
fileWriter.write(new Date()+": "+message); 
fileWwriter.newLine(); 
} 
} catch (IOException e) { 
e.printStackTrace(); 


} 
} 


最 后 还 有 两 个 方法 : 一 个 用 于 删 减 日 志文 件 ， 男 一 个 用 于 结束 日 志 系 统 的 执行 器 ， 该 方法 会 中 断 
执行 LogTask 的 线程 。 


public static void initializeLog() { 
Path path = Paths.get (LOG_FILE); 
if (Files.exists(path)) { 
try (OutputStream out = Files.newOutputStream(path, 
StandardOpenOption.TRUNCATE EXISTING)) { 
} catch (IOException e) { 
e.printStackTrace (); 
} 
} 
thread.start (); 
} 
public static void shutdown() { 
thread.interrupt (); 


} 


3.3.4 对比 两 种 解决 方案 
现在 ， 测 试 一 下 串 行 服务 器 和 并 发 服务 器 ， 观 察 哪 种 解决 方案 会 使 服务 器 性 能 更 好 。 我 们 实现 了 
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四 个 类 进行 自动 测试 ， 它 们 可 以 向 服务 器 发 出 查询 。 这 些 类 如 下 所 示 。 


口 SerialClient : 


Query 消息 


该 类 实现 了 一 个 可 


| 的 串 行 服务 器 客户 端 
息 的 请 求 和 一 个 使 用 Report 消息 的 查询 。 


请 求 90 次 Query 查询 和 10 次 Report 查询 。 


DQ MultipleSerialClients: 
ient 创建 一 个 线程 ， 


为 每 个 


| SerialCl 


测试 了 1 到 5 个 并 发 客户 端 。 


口 ConcurrentClient: 
行 服务 絮 。 


DQ MultipleConcurrentClients: 


的 是 并 发 服务 顺 而 非 串 行 服务 需 。 


要 测试 串 行 服务 器 ， 可 以 按照 下 述 步 又 进行 
(1) 启动 串 行 服务 大 


首 且 等 待 其 初始 化 。 


该 类 模拟 了 同 


时 存在 


。 该 客户 端 产 生 了 9 个 使 用 


该 客户 端 将 重复 该 过 程 10 次 ， 这 样 就 会 


多 个 客户 端的 情况 。 对 于 这 种 情形 ， 我 们 


并 日 


该 类 与 SerialClient 类 相似 ， 只 只 不 


同时 运行 这 些 客户 端 以 查看 服务 器 的 性 能 。 我 们 


过 它 调用 的 是 并 发 服务 器 而 非 串 


该 类 与 Multipleserialclients 类 相似 ， 只 不 过 


它 调 用 


(2) 启动 MultipleSerialClients 类 , 该 类 首先 启动 一 个 serialclient 类 , 然后 依次 启动 两 


个 、 三 个 、 四 个 ， 最 后 启动 五 个 serialclient 类 。 
对 于 并 发 服务 器 ， 你 可 以 按照 类 似 过 程 进行 处 理 。 
(1) 启动 并 发 服务 器 并 且 等 待 其 初始 化 。 
(2) 启动 Multipleconcurrentclients 类 ， 该 类 首先 启动 一 个 concurrentclient 类 ， 然 后 
依次 启动 两 个 、 三 个 、 四 个 ， 最 后 启动 五 个 ConcurrentClient 加 
为 比较 这 两 个 版 本 的 执行 时 间 ， 我 们 使 用 JMH 框架 ( 请 查看 名 为 “Code Tools: jmh” 的 文章 ) 实 
现 了 一 个 微 基准 测试 , 该 框架 支持 在 Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测试 的 框架 是 一 种 比较 
好 的 解决 方案 ， 可 直接 使 用 其 中 的 currentTimeMi11is() 方 法 或 者 nanoTime () 方 法 测量 时 间 。 我 
们 在 两 套 计算 机 架构 上 分 别 将 其 执行 10 次 。 
口 一 台 计 算 机 配置 了 Intel Core i5-5300 CPU、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 右 
有 两 个 核 ， 每 个 核 可 以 执行 两 个 线程 ， 这 样 我 们 就 有 了 四 个 并 行 线程 。 
口 另 一 台 计算 机 配置 了 AMD A8-640 CPU、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 有 
四 个 核 。 
全 部 执行 结果 如 下 。 
本 AMD Intel 
本 区 串 行 并 发 加 速 比 品行 并 发 加 速 比 
1 4.970 4.391 1.13 1.090 0.914 1.19 
2 9.713 5.154 1.88 1.981 1.312 1.51 
3 14.565 6.244 2.33 2.903 1.644 直子 
4 19.751 7.676 2.57 3.878 1.988 1.95 
5 24.212 8.434 2.87 4.775 2.346 2.04 
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上 表 各 单元 中 给 出 的 是 每 个 客户 端的 平均 时 间 (单位 : 秒 ) 我 们 可 以 得 出 以 下 结论 。 

口 在 两 种 架构 上 的 执行 时 间 差 别 很 大 ， 这 需要 考虑 多 方面 的 因素 ， 例 如 硬盘 、 内 存 和 操作 系统 
等 都 会 影响 性 能 。 不 过 ， 两 种 架构 下 得 到 加 速 比 比较 相近 。 

口 两 种 服务 器 的 性 能 均 受 向 服务 器 发 送 请 求 的 并 发 客户 端 数量 的 影响 。 

口 在 所 有 情况 下 ， 并 发 版 本 的 执行 时 间 均 比 串 行 版 本 的 执行 时 间 更 低 。 


3.3.5 ”其 他 重要 方法 


贯穿 本 章 , 我 们 使 用 了 Java 并 发 API 中 的 一 些 类 实现 执行 器 框架 的 基础 功能 。 这 些 类 还 有 其 他 一 


些 重要 方法 。 在 本 节 ， 我 们 将 讲解 其 中 一 部 分 。 


Executors 类 提供 了 其 他 一 些 创 建 ThreadqPoolExecutor 对 象 的 方法 。 这 些 方法 有 如 下 几 种 。 
口 newCcachedThreadPool () : 该 方法 创建 了 一 个 ThreadPoolExecutor 对 象 ， 会 重新 使 用 
空闲 的 工作 线程 ， 但 是 如 果 必 要 ， 它 也 会 创建 一 个 新 的 工作 线程 。 在 此 并 没有 最 大 工作 线 
口 newSingleThreadExecutor () : 该 方法 创建 了 一 个 仅 使 用 单个 工作 线程 的 ThreadPool- 
Executor 对 象 。 发 送 给 执行 器 的 任务 会 存储 在 一 个 队列 中 ， 直 到 该 工作 线程 可 以 执行 它们 
为 止 。 
口 countDownLatch 类 额外 提供 了 如 下 几 种 方法 。 
await (long timeout, TimeUnit unit): 该 方法 将 一 直 等 待 ， 直 到 内 部 计数 器 数值 为 
0 并 超过 参数 中 指定 的 时 间 为 止 。 如 果 超 时 ， 则 该 方法 返回 false 值 。 
里 getCount () : 该 方法 返回 内 部 计数 器 的 实际 值 。 
Java 中 有 两 种 类 型 的 并 发 数据 结构 。 
口 阻塞 型 数据 结构 : 当 你 调用 某 个 方法 但 是 类 库 无 法 执行 该 项 操作 时 ( 例如 ， 你 试图 获取 某 个 
元 素 而 数据 结构 是 空 的 ) ， 这 种 结构 将 阻塞 线程 直到 这 些 操 作 可 以 执行 。 
口 非 阻塞 型 数据 结构 : 当 你 调用 某 个 方法 但 是 类 库 无 法 执行 该 项 操作 时 ( 因为 结构 为 空 或 者 为 
满 ) ， 该 方法 会 返回 一 个 特定 值 或 抛 出 一 个 异常 。 
既 有 实现 上 述 两 种 行为 的 数据 结构 ， 也 有 仅 实 现 其 中 一 种 行为 的 数据 结构 。 通 常 ， 阻 塞 型 数据 结 


构 也 会 实现 具有 非 阻 塞 型 行为 的 方法 ， 而 非 阻塞 型 数据 结构 并 不 会 实现 阻塞 型 方法 。 


实现 阻塞 型 操作 的 方法 如 下 。 

D put() 、putFirst() 、putLast() : 这 些 方法 将 一 个 元 素 插 人 数据 结构 。 如 果 该 数据 结 术 

已 满 ， 则 会 阻塞 该 线程 ， 直 到 出 现 空间 为 止 。 

口 take() 、takeFirst () 、takeLast (): 这 些 方法 返回 并 且 删 除数 据 结 构 中 的 一 个 元 素 。 如 

果 该 数据 结构 为 空 ， 则 会 阻塞 该 线程 直到 其 中 有 元 素 为 止 。 

实现 非 阻 塞 型 操作 的 方法 如 下 。 

口 aada() 、aqaFirst() 、addLast () : 这 些 方法 将 一 个 元 素 插入 数据 结构 。 如 果 该 数据 结构 
已 满 ， 则 会 抛 出 一 个 IllegalStateException 异常 。 


管理 大 量 线程 : 执行 器 


口 remov 


、IemoveFirst 


个 元 素 。 如 果 该 结构 为 空 ， 
D element () 、 
素 。 如 有 果 该 数据 结构 为 空 ， 
口 offer()、 
该 结构 已 满 ， 则 返 
Opoll()、 


offerFirst().、 


peekFirst().、 


素 。 如 果 该 数据 结构 为 空 ， 
第 11 章 将 更 加 详细 地 讲述 并 发 数据 结构 。 


3.4 小 结 


在 简单 的 并 发 应 用 程序 中 ， 本 章 使 用 Runnable 接口 和 Thread 类 执行 并 发 任务 。 我 们 创建 和 管 
理 这 些 线程 并 且 控 制 其 执行 。 但 是 在 大 型 并 发 应 月 


题 。 在 这 种 情况 下 ， 
首先 , 我 们 探讨 了 
一 个 子 接口 Execu 
实现 了 callable 接口 ， 正 如 第 5 章 即将 诸 
Executor 类 是 这 两 种 接 


ThreadPool] 
言 息 ， 以 及 正在 执行 的 线程 或 人 
该 类 包含 了 创建 不 同类 型 执行 器 的 方法 。 

我 们 已 经 向 你 展示 了 如 何 使 月 


getFirst().、 


() 、removeLast () : 这 些 方法 将 返回 并 且 删 除数 据 结 构 中 的 一 


则 这 些 方法 将 抛 出 一 个 Illegalstate 
getLast () : 这 些 方法 将 返 
则 会 抛 出 一 个 Illegalstate 
offerLast () : 这 些 方法 可 以 将 一 个 元 素 搬 入 数据 结构 。 如 果 
回 一 个 Boolean 值 false。 

pollFirst() 、pollLast () : 这 些 方法 将 返回 并 | 
如 果 该 结构 为 空 ， 则 返 
DQ peek ()、 


回 null 值 。 
peekLast () : 


则 返回 null 值 。 


程序 中 ， 不 能 采 月 


Java 并 发 API 引 入 了 执行 器 框架 。 本 章 讲述 了 该 
Executor 接口 , 它 定义 了 将 Runnable 任务 发 送 给 执行 器 的 基本 方法 。 该 接口 有 
torService， 该 子 接口 所 包含 的 方法 可 向 执行 器 发 送 返回 结果 的 任务 ( 这些 任务 
F 到 的 那样 ) 和 一 个 人 
口 的 基本 实现 : 增加 额外 的 方法 以 获取 有 关 执 行 器 状态 的 
F 务 的 数量 。 为 该 类 创建 对 象 最 简单 的 方式 是 使 用 Executors 工具 类 ， 


有 执行 器 ， 并 且 


Exception 异常 。 
回 但 是 不 删除 数据 结构 中 的 一 个 元 


wy ， Br 
ExCcept1ion 异 吊 。 


日 删除 数据 结构 中 的 一 个 元 素 。 


并 不 删除 数据 结构 中 的 一 个 元 


| 


有 这 种 方式 ， 因 为 它 会 导致 很 多 问 
E 架 的 基本 特征 及 其 构成 组 件 。 


使 用 执行 器 实现 了 两 个 实际 例子 ， 说 明了 如 何 将 串 


一 人 


于 


算法 转换 为 并 发 算法 。 第 一 个 例子 是 开 最 近邻 算法 ,应 用 于 UCI 机 器 学 习 资 源 库 的 Bank Marketing 数 


据 集 。 第 二 个 例子 是 客户 端 /服务 器 应 


在 这 两 个 月 


日 例 中 ， 使 
下 一 章 将 介绍 如 何 采用 执行 器 实 ] 


服务 器 应 用 程序 ， 并 


任务 ， 实 现 一 个 RSS 新 闻 阅 读 器 。 


日 使 高 优先 级 人 有 


用 程序 ， 用 以 查询 某 银行 发 布 的 发 展 指数 。 
用 执行 铝 极 大 地 改善 了 性 能 。 


纲 高 级 技术 。 我 们 将 通过 提高 任务 撤销 的 可 能 性 ， 完 善 客户 端 / 


E 务 早 于 低 优先 级 任务 执行 。 我 们 还 将 展示 如 何 实现 周期 性 执行 的 


第 4 章 


充分 利用 执行 器 


第 3 章 介绍 了 执行 器 的 基本 特征 ,将 其 作为 改进 执行 大 量 并 发 任务 的 并 发 应 用 程序 性 能 的 一 种 方 
式 。 本 章 将 探究 执行 器 的 高 级 特性 ， 这 些 特性 使 它们 成 为 支持 并 发 应 用 程序 的 强大 工具 。 本 章 将 讲述 
以 下 几 项 内 容 。 

口 执行 器 的 高 级 特性 。 
口 第 一 个 例子 : 高 级 服务 器 应 用 程序 。 
口 第 二 个 例子 : 执行 周期 性 任务 。 

口 有 关 执行 器 的 其 他 信息 。 


4.1 执行 器 的 高 级 特性 


空 
(一 


执行 器 是 一 个 类 ， 它 允许 编程 人 员 执 行 并 发 任务 而 无 须 担 心 线程 的 创建 和 管理 。 编 程 人 员 
Runnable 对 象 并 将 其 发 送 给 执行 器 ， 而 执行 器 创建 和 管理 必要 的 线程 以 执行 这 些 任务 。 第 3 章 兽 人 
绍 执行 器 框架 具有 以 下 基本 特征 。 

口 如 何 创 建 执行 器 以 及 在 创建 执行 器 时 有 哪些 不 同 选项 。 

口 如 何 将 并 发 任务 发 送 给 执行 器 。 

口 如 何 控制 执行 器 使 用 的 资源 。 

口 在 执行 器 的 内 部 ， 如 何 使 用 一 个 线程 池 优化 应 用 程序 的 性 能 。 

无 论 如 何 ， 执 行 器 提供 了 很 多 选项 ， 这 使 其 成 为 并 发 应 用 程序 中 的 一 种 强大 机 制 。 


4.1.1 任务 的 撤销 


将 任务 发 送 给 执行 器 之 后 ， 还 可 以 撤销 该 任务 的 执行 。 使 用 supmit () 方 法 将 Runnable 对 象 发 
送 给 执行 器 时 , 它 会 返回 Future 接口 的 一 个 实现 。 该 类 允许 你 控制 该 任务 的 执行 。 该 类 有 cancel () 
方法 ， 可 用 于 撤销 任务 的 执行 。 该 方法 接收 一 个 布尔 值 作为 参数 ， 如 果 接 收 到 的 参数 为 true， 那 么 
执行 器 执行 该 任务 ， 和 否则 执行 该 任务 的 线程 会 被 中 断 。 

以 下 便 是 想 要 撤销 的 任务 无 法 被 撤销 的 情形 。 
口 任务 已 经 被 撤销 。 
口 任务 已 经 完成 了 执行 。 
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口 在 API 文 档 中 并 未 说 明 的 其 他 原因 。 
cancel () 方 法 返回 了 一 个 布尔 值 ， 用 于 表明 当前 人 


口 任务 正在 执行 而 提供 给 cancel () 方 法 的 参数 为 false。 


F 务 是 否 被 撤销 。 


4.1.2 ”任务 执行 调度 


ThreadPoolExecutor 类 是 
发 API 为 该 类 提供 了 一 个 扩展 
类 。 你 可 以 进行 如 下 操作 。 
口 在 某 段 延迟 之 后 执行 某 项 任务 。 


se 
Zi 
和 入， 


4.1.3” 重 载 执行 器 方法 


执行 需 框 架 是 一 种 非常 灵活 的 机 制 。 
者 ScheduledT 


于 改变 执行 器 工作 方式 的 方法 。 如 果 你 重 载 了 7 ThreadPoo11 
口 beforeExecute() : 该 方法 在 执行 右 中 的 某 一 并 发 有 


Executor 接口 和 


D 周期 性 地 执行 某 项 任务 ， 包 括 以 固定 速率 执行 任务 或 者 以 


固定 延迟 执行 任务 。 


过 扩展 一 个 已 有 的 类 ( ThreadqPool1i 


你 可 以 通 


ExecutorService 接口 的 基本 实现 。 但 是 Java 并 


以 支持 预定 任务 的 执行 ， 这 就 是 ScheduledThreadPoolFExeuctor 


Executor 或 
hreadPoolExecutor ) 实现 自己 的 执行 器 ， 获 得 想 要 的 行为 。 这 些 类 中 包括 一 些 便 
Executor 类 ， 就 可 以 重 载 以 下 方法 。 
F 务 执行 之 前 被 调用 。 它 接收 将 要 执行 


的 Runnable 对 象 和 将 要 执行 这 些 对 象 的 Thread 对 象 。 该 方法 接收 的 Runnable 对 象 是 


FutureTask 类 的 一 个 实例 ， 而 不 是 使 
口 aftterExecute() : 该 方法 在 执行 需 


| submit () 方 法 发 送 给 执行 器 的 Runnable 对 象 。 


的 某 一 并 发 任务 执行 之 后 被 调用 。 它 接收 的 是 已 执行 


的 Runnable 对 象 和 一 个 Throwable 对 象 ， 该 Throwable 对 象 存储 了 任务 中 可 能 抛 出 的 异 


常 。 与 pefor 


Execute () 方 法 相同 ，Runnable 对 象 是 FutureTask 类 的 一 个 实例 。 


口 newTaskFor () : 该 方法 创建 的 任务 将 执行 使 用 submit () 方 法 发 送 的 Runnable 对 象 。 该 方 


法 必须 返回 RunnableFuture 接 


.的 一 个 实现 


回 FutureTask 类 的 一 个 实例 ,但 是 这 在 今后 的 实现 
如 果 扩 展 scheduledThreadPoolExecutor 类 ,你 可 以 
面向 预定 任务 的 newTaskFor () 方 法 类 似 并 且 允 放 


4.1.4 ”更 改 一 些 初始 化 参数 


F 重 载 执行 带 


你 也 可 以 在 执行 器 创建 之 时 更 改 一 些 参 数 以 改变 其 行为 。 最 常用 的 一 些 参数 如 下 所 示 。 


口 Blockingoueue<Runnable>: 


执行 的 任务 。 可 以 将 该 接 
顺序 。 


口 ThreadFactory: 可 以 指定 Threadl 


建 执行 该 任务 的 线程 。 例 如 ， 你 可 以 使 有 


每 


Factory 


类 ， 保 存 有 关 任务 执行 时 间 的 日 志 信息 。 


个 执行 器 均 使 月 


月 Threag 


接 


Factory 接 


口 的 一 个 实现 ， 而 且 执 行 器 将 使 


口 创建 Thread 类 的 一 个 扩 


青 况 下 ，Open JDK 9 和 Oracle JDK9 返 
1 可 能 会 发 生变 化 。 
重 载 decorateTask() 方 法 。 该 方法 与 
所 执行 的 任务 。 


日 一 个 内 部 的 Blockingoueue 存储 等 待 
口 的 任何 实现 作为 参数 传递 。 例 如 ， 更 改 执行 器 执行 任务 的 默认 


该 工厂 创 


展 
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口 RejectedExecutionHandler: 调用 shutdown () 方 法 或 者 shutdownNow() 方 法 之 后 ， 所 
有 发 送 给 执行 器 的 任务 都 将 被 拒绝 。 可 以 指定 RejectedExecutionHandler 接口 的 一 个 实 
现 管理 这 种 情形 。 


4.2 第 一 个 例子 : 高 级 服务 器 应 用 程序 


第 3 章 
发 展 指数 进行 数据 搜索 ， 
本 


口 


为 了 实现 这 些 新 特 行 


介绍 了 一 个 客户 端 /服务 器 应 用 程序 的 例子 。 本 节 实 现 了 一 个 服务 器 ， 针 对 3.3 节 例 子 中 的 


并 且 实 现 了 一 个 客户 端 ， 多 次 调用 该 服务 咒 ， 以 便 测 试 执行 器 的 性 能 。 


节 将 扩展 这 个 例子 ， 为 其 加 入 几 个 特性 ， 如 下 所 示 。 

可 以 使 用 新 的 撤销 型 查询 撤销 服务 器 上 执行 的 查询 。 
口 可 以 使 用 优先 级 参数 控制 查询 执行 的 顺序 。 有 具有 较 高 优先 级 的 任务 将 优先 执行 。 
口 服务 器 将 计算 任务 的 数量 以 及 使 用 该 服务 器 各 用 户 的 总 执行 时 间 。 


E， 对 服务 器 做 了 以 下 改动 。 


口 为 每 个 查询 增加 


了 两 个 参数 。 第 一 个 参数 是 发 送 查 询 的 用 户 名 ， 而 另 一 个 则 是 查询 的 优先 


级 。 查 询 的 新 格式 有 如 下 几 种 。 


四 Query 查询 : 格式 为 q;username;priority;codCountry;codIndicator;year, 其 中 ， 


username 十 


] 户 名 , priority 是 查询 优先 级 , codacountry 是 国家 代码 , codIndicator 


是 指数 代码 ，year 是 可 选 参数 ， 表 示 想 要 查询 的 年 份 。 


国 Report 查询 : 


格式 为 r;username;priority;codIndicator, 其 中 , username 是 用 户 


名 ，priority 是 查询 优先 级 ，codIngicator 是 你 想 要 制 表 的 指数 代码 。 


国 Status 查询 : 


格式 为 s;username;priority， 其中，username 是 用 户 名 ,priority 


是 查询 的 优先 级 。 


加 Stop 查询 : 格式 为 z;username;priority， 其中，username 是 用 户 名 ,priority 是 


查询 的 优先 级 。 


口 还 实现 了 一 种 新 查询 ， 如 下 所 示 。 


和 Cancel 查询 : 


格式 为 c;username;priority， 其 中 ，username 是 用 户 名 ，priority 


是 查询 的 优先 级 。 


口 实现 了 自己 的 执行 器 进行 如 下 操作 。 
曙 统计 每 个 用 户 对 服务 器 的 使 用 情况 。 
时 按照 优先 级 执行 任务 。 
晶 控制 任务 的 拒绝 。 
加 修改 了 concurrentServer 和 RequestTask 类 以 适应 服务 器 的 新 要 素 。 


服务 器 的 其 他 要 素 人 


缓存 系统 、 日 志 系统 和 Dao 类 等 ) 都 相同 ， 因 此 不 再 袭 述 。 


4.2.1 ServerFExecutor 类 


如 前 所 述 ， 我 们 实现 了 自己 的 执行 器 执行 服务 器 任务 ， 也 实现 了 一 些 额 外 的 但 是 必要 的 类 用 以 提 
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供 所 有 功能 。 现 在 介绍 一 下 这 些 类 。 

1. 统计 对 象 

该 服务 器 将 计算 每 个 用 户 在 服务 器 上 执行 的 任务 数量 ， 以 及 这 些 任 务 的 总 执行 时 间 。 为 了 存储 这 
样 的 数据 ， 我 们 实现 了 Executorstatistics 类 。 它 有 两 个 用 于 存储 这 些 信息 的 属性 。 


public class ExecutorStatistics { 
private AtomicLong executionTime = new AtomicLong(0L); 
private AtomicInteger numTasks = new AtomicInteger (0); 


这 些 属性 都 是 支持 在 单个 变量 上 进行 原子 操作 的 Atomicvariables 型 变量 , 可 以 在 不 同 的 线程 
中 使 用 这 些 变量 ， 而 且 不 需要 采用 任何 同步 机 制 。 然 后 ， 该 类 还 有 两 个 方法 可 以 分 别 增 加 任务 数 和 执 
行 时 间 。 


public voidq addExecutionTime(long time) { 
executionTime.addAngdGet (time); 

} 

public void addTask() { 
numTasks.incrementAndGet (); 


} 


最 后 ， 我 们 还 增加 了 可 获取 上 述 两 个 属性 值 的 方法 ， 而 且 重 载 了 tostring () 方 法 以 可 读 方 式 获 
取信 息 。 

@Override 

public String toString() { 


return "Executed Tasks: "+ getNumTasks()+". Execution Time: "+ 
getExecutionTime(); 


三 


由 


} 
2. 被 拒绝 任务 控制 器 
创建 执行 器 时 ， 可 以 指定 一 个 类 用 以 管理 其 拒绝 的 任务 。 如 果 在 执行 器 已 调用 shutdown () 或 
shutdownNow () 方 法 之 后 提交 任务 ， 则 该 任务 会 被 执行 器 拒绝 。 
为 了 控制 这 种 情况 ， 我 们 实现 了 RejectedTaskController 类 。 该 类 实现 了 Rejected- 
ExecutionHandler 接口 和 rejectedExecution() 方 法 。 


public class RejectedTaskController implements 
RejectedExecutionHandler { 


@Override 
public void rejectedExecution(Runnable task, ThreadPoolExecutor 
executor) { 
ConcurrentCommand command= (ConcurrentCommand)task; 


try (Socket clientSocket=command.getSocket () ; 
PrintWriter out = new PrintWriter(clientSocket 
.getOutputStream(),true); 
者 二 
String message="The server is shutting Qown . "+ 
" Your request can not be served."+ 
" Shutting Down: "+ 
String.valueOf (executor.isShutdown()) + ". Terminated: "+ 
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String.valueOf (executor.isTerminated())+ ". Terminating: "+ 
) 


String.valueOf (executor.isTerminating()); 
System.out .println (message); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
} 


每 个 被 拒绝 的 任务 都 要 调用 一 次 rejectedExecution() 方 法 , 而 该 方法 将 接收 被 拒绝 的 任务 和 
拒绝 该 任务 的 执行 器 作为 参数 。 

3. 执行 器 任务 

向 执行 器 提交 Runnable 对 象 时 ， 它 并 不 会 直接 执行 该 对 象 ， 而 是 创建 一 个 新 的 对 象 ， 即 
FutureTask 类 的 一 个 实例 ， 而 且 这 项 任务 由 执行 器 的 工作 线程 执行 。 

在 我 们 的 例子 中 ,为 了 度量 任务 的 执行 时 间 ,我 们 在 servezrTask 类 中 实现 了 自己 的 FutureTask 
类 。 该 类 扩展 了 FutureTask 类 并 且 实 现 了 comparable 接口 ， 如 下 所 示 : 


public class ServerTask<V> extends FutureTask<V> implements 
Comparable<ServerTask<V>>{ 


从 内 部 看 ， 该 类 存储 了 将 作为 concurrentcommand 对 象 执行 的 查询 。 


private ConcurrentCommand commangd; 


在 构造 函数 中 ， 该 类 使 用 FutureTask 类 的 构造 函数 并 且 存 储 了 ConcurrentCommand 对 象 。 


public ServerTask (ConcurrentCommand command) { 
super (command, null); 
this.command=command; 


} 


public ConcurrentCommand getCommand() { 
return commangd; 


} 


public void setCommand (ConcurrentCommand command) { 
this.command = commandgd; 


} 


最 后 ， 该 类 还 实现 了 compareTo () 操 作 ， 用 于 比较 两 个 serverTask 实例 存储 的 命令 ， 如 下 
所 示 : 
@Override 


public int compareTo(ServerTask<V> other) { 
return command.compareTo (other.getCommand()); 


} 
4. 执行 器 
既然 有 了 执行 器 的 辅助 类 ， 那 么 必须 实现 执行 右 本 身 。 我 们 实现 了 针对 这 一 用 途 的 server- 
Executor 类 ， 它 扩展 了 ThreadPoolExecutor 类 并 日 还 有 一 些 内 部 属性 ， 如 下 所 示 。 


口 startTimes: 这 是 用 于 存储 每 个 任务 开始 日 期 的 程序 代码 concurrentHashMap ， 其 键 为 
ServerTask 对 象 (一 个 Runnable 对 象 ) ， 而 其 值 为 Date 对 象 。 
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口 executionstatistics: 这 是 用 于 存储 每 个 用 户 使 用 情况 统计 的 concurrentHashMap， 
其 键 为 用 户 名 ， 而 其 值 为 Executorstatistics 对 象 。 


口 CORE_POOL_SIZE、MAXIMUM_POOIL_SIZE 和 KEEP_ALIVE_TIME: 这些 是 用 于 定义 执行 器 特 
征 的 常量 。 

口 REJECTED_TASK_CONTROLLER: 这 是 一 个 RejectedTaskController 类 的 属性 ， 用 于 控制 
执行 器 拒绝 的 任务 。 


这 可 以 通过 以 下 代码 解释 。 
public class ServerExecutor extends ThreadPoolExecutor { 
private ConcurrentHashMap<Runnable, Date> startTimes; 
private ConcurrentHashMap<String, ExecutorStatistics> 
executionStatistics; 
private static int CORE_ POOL_ SIZE = Runtime.getRuntime() 
.availableProcessors(); 
private static int MAXIMUM POOL_SIZE = Runtime.getRuntime() 
.availableProcessors(); 
private static long KEEP_ALIVE _ TIME = 10; 


private static RejectedTaskController REJECTED_ TASK_CONTROLLER 
= new RejectedTaskController(); 


public ServerExecutor() { 
super (CORE_POOL_SIZE, MAXIMUM_ POOL_SIZE, KEEP_ALIVE_TIME, 
TimeUnit.SECONDS, new PriorityBlockingQueue<>(), 
REJECTED_TASK_CONTROLLER);} 


startTimes = new ConcurrentHashMap<>(); 
executionStatistics = new ConcurrentHashMap<>(); 


} 


该 类 的 构造 函数 调用 父 类 的 构造 函数 ， 创 建 了 一 个 PriorityBlockingQueue 类 ， 用 于 存储 那 
些 将 在 执行 器 中 执行 的 任务 。 该 类 根据 compareTo () 方 法 的 执行 结果 对 元 素 进行 排序 ( 因此 其 中 存 
储 的 元 素 必 须 实现 comparable 接口 )。 该 类 的 实现 将 允许 我 们 按照 优先 级 执行 任务 。 

然后 ， 重 载 了 ThreadPoolExecutor 类 的 一 些 方法 。 首 先是 beforeExecute () 方 法 。 该 方法 
在 每 个 任务 执行 之 前 执行 。 它 接收 serverTask 对 象 和 执行 该 任务 的 线程 作为 参数 。 在 本 例 中 , 将 实 
际 日 期 存放 于 concurrentHashMap， 这 样 每 个 任务 的 起 始 日 期 如 下 所 示 。 


protected void beforeExecute (Thread t, Runnable r) { 
SuUper .beforeExecute (七 ， 工 ) ; 
startTimes.put (r, new Date()) 


} 


下 一 个 方法 是 afterExecute() 方 法 。 该 方法 在 执行 器 的 每 个 任务 执行 完毕 后 执行 , 并 接收 已 执 
行 的 ServerTask 对 象 和 Throwable 对 象 , 其 中 该 方法 将 已 执行 的 serverTask 对 象 作 为 参数 。 作 
为 最 后 一 个 参数 只 有 任务 执行 抛 出 异常 时 才 会 有 值 。 在 我 们 的 例子 中 ， 将 使 用 该 方法 进行 如 下 操作 。 

(1) 计算 任务 的 执行 时 间 。 

(2) 按照 下 述 方式 更 新 用 户 的 统计 信息 。 
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QOverride 

protected void afterExecute(Runnable r, Throwable t) { 
super.afterExecutel(r, t); 
ServerTask<?> task=(ServerTask<?>)r; 
ConcurrentCommand command=task.getCommand(); 


TE nu), 浊 
if (!task.isCancelled()) { 
Date startDate = startTimes.remove(r); 
Date endDate=new Date(); 
long executionTime= endDate.getTime() - 
startDate.getTime(); 
ExecutorStatistics statistics = executionStatistics 
.ComputeIfAbsent (command.getUsername(), 
n -> new ExecutorStatistics()); 
statistics.addExecutionTime (executionTime); 
statistics.addTask(); 
ConcurrentServer.finishTask (command.getUsername(), 


command); 
} 
else { 
String message="The task" + command.hashCode() + "of 
user" + Command.getUsername() + "has 


been cancelled."; 
Logger.sendMessage (message); 


} 


} else { 
String message="The exception "+t.getMessage()+" has 
been thrown."; 
Logger.sendMessage (message); 


} 

最 后 重 载 newTaskFor () 方 法 。 该 方法 执行 后 会 转换 发 送 给 执行 器 的 Runnable 对 象 , 使 用 执行 
器 待 执行 的 FutureTask 实例 中 的 submit () 方 法 。 在 我 们 的 例子 中 , 使 用 serverTask 对 象 蔡 代 默 
认 的 FutureTask 对 象 。 


QOverride 
protected <T> RunnableFuture<T> newTaskFor (Runnable runnable, T 
value) { 


return new ServerTask<T> (runnable); 


} 
我 们 在 执行 器 中 引入 了 一 种 额外 方法 ,将 执行 器 中 存储 的 所 有 统计 信息 写 入 日 志 系 统 。 稍 后 你 将 
看 到 ， 该 方法 将 在 服务 器 执行 结束 时 被 调用 ， 代 码 如 下 所 示 : 


public void writeStatistics() { 


for(Entry<String, ExecutorStatistics> entry: executionStatistics 
.entrySet()) { 
String user = entry.getrKey (); 
ExecutorStatistics stats = entry.getValue(); 
Logger.sendMessage (user+":"+stats); 
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4.2.2 ”命令 类 


命令 类 执行 发 送 给 服务 器 的 各 种 查询 。 可 以 向 服务 器 发 送 以 下 5 种 查询 。 
口 Query 查询 : 这 种 查询 用 于 获取 有 关 某 个 国家 、 某 个 指数 以 及 某 个 年 份 〈 可 选 ) 的 信息 ， 通 


过 concurrentoueryCcommand 类 实现 。 


口 Report 查询 : 这 种 查询 用 于 获取 有 关 某 个 指数 的 信息 ， 通过 ConcurrentReportCommand 
类 实现 。 

口 status 查询 : 这 种 查询 用 于 获取 服务 器 状态 的 信息 ， 通过 concurrentStatusCommand 类 
实现 。 

口 cancel 查询 : 这 种 查询 用 于 撤销 某 一 用 户 任 务 的 执行 ， 通 过 concurrentCancelCommand 
类 实现 。 


口 stop 查询 : 这 种 查询 用 于 停止 服务 器 的 执行 ， 通 过 concurrentStopCcommand 类 实现 。 

我 们 还 有 ConcurrentErrorCommand 类 和 concurrentCcommand 类 , 前 一 种 类 用 于 管理 某 一 未 
知 命令 到 达 服 务 器 的 情况 ， 后 一 种 类 是 所 有 命令 的 基 类 。 

1. concurrentcommand 类 

这 是 每 个 命令 的 基 类 ， 包 含 所 有 命令 的 共性 行为 ， 如 下 所 述 。 
口 调用 实现 每 个 命令 特定 逻辑 的 方法 。 
口 将 结果 写 入 客户 端 。 
口 关闭 在 通信 过 程 中 使 用 的 所 有 资源 。 

该 类 扩展 了 command 类 并 日 实现 了 comparable 接口 和 和 Runnable 接口 。 在 第 3 章 的 例子 中 ， 
命令 都 是 较为 简单 的 类 ,但 在 本 例 中 ， 并 发 命令 都 是 将 要 发 送 给 执行 器 的 Runnable 对 象 。 


public abstract class ConcurrentCommand extends Commangd implements 
Comparable<ConcurrentCommand>, Runnablef{ 


该 类 有 以 下 三 个 属性 。 
口 username: 该 属性 用 于 存储 发 送 该 查询 的 用 户 名 称 。 

口 priority: 该 属性 用 于 存储 查询 的 优先 级 ， 它 将 决定 查询 的 执行 顺序 。 
口 socket: 该 属性 表示 的 是 用 于 与 客户 端 通信 的 套 接 字 。 

该 类 的 构造 函数 中 对 这 三 个 属性 进行 了 初始 化 。 


private String username; 
private byte priority; 
private Socket socket; 


public ConcurrentCommand (Socket socket, String[] command) { 
super (command); 
username=command[1]; 
priority=Byte.parseByte (command[2]); 
this.socket=socket; 
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该 类 的 主要 功能 位 于 抽象 方法 execute() 和 run() 方 法 中 。 其 中 ,每 个 具体 命令 都 通过 实现 
execute() 方 法 计算 和 返回 查询 的 结果 。run ( ) 方 法 调用 execute() 方 法 , 将 结果 存储 在 缓存 , 写 人 
套 接 字 中 ， 并 且 关 闭 在 通信 中 使 用 的 所 有 资源 ， 代 码 如 下 所 示 : 


@Override 
public abstract String execute(); 


QOverride 
public void run() { 
String message="Running a Task: Username: "+username+"; 


Priority: "+priority; 
Logger.sendMessage (message); 


String ret=execute(); 


ParallelCache cache = ConcurrentServer.getCache(); 


f (isCacheable()) { 
cache.put (String.join(";",command), ret); 


je 


} 


try (PrintWriter out = new PrintWriter (socket .getOutputStream(), 
trhe)s) 


System.out .printiln (ret); 


} catch (IOException e) { 
e.printStackTrace(); 

} 

System.out .printiln (ret); 


} 

最 后 ，comparero () 方 法 使 用 其 优先 级 属性 确定 任务 执行 的 顺序 。PriorityBlockingoueue 
类 将 使 用 该 方法 对 任务 进行 排序 , 这 样 具 有 较 高 优先 级 的 任务 将 优先 执行 .请 注意 , 当 getPriority () 
方法 返回 一 个 较 低 的 值 时 ， 该 任务 具有 较 高 的 优先 级 。 如 果 任 务 的 getPriority () 方 法 返回 1， 则 
该 任务 的 优先 级 高 于 使 用 该 方法 返回 2 的 任务 的 优先 级 。 


QOverride 
public int compareTo(ConcurrentCommand o) { 
return Byte.compare(o.getPriority(), this.getPriority()); 


} 

2. 具体 的 命令 

我 们 已 经 在 实现 不 同 的 命令 类 时 做 了 稍 许 改动 ， 而 且 还 增加 了 一 个 由 concurrentCancel- 
Commangd 类 实现 的 新 类 。 这 些 类 的 主要 逻辑 都 包含 在 execute () 方 法 中 ， 该 方法 计算 查询 的 响应 并 
且 将 其 作为 字符 串 返 回 。 

ConcurrentCancelCommand 新 类 的 execute() 方 法 调用 了 concurrentServer 类 的 


cancelTasks () 方 法 。 该 方法 将 停止 执行 与 参数 中 指定 用 户 相关 的 所 有 待 处 理 任务 。 


QOverride 
public String execute() { 


三 
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ConcurrentServer.cancelTasks (getUsername () ) ; 


String message = "Tasks of user "+getUsername()+ 
" has been cancelled."; 

Logger.sendMessage (message); 

return message; 


} 


ConcurrentReportCommand 类 的 execute() 方 法 使 用 WDIDAO 类 的 query () 方 法 获取 用 户 请 
求 的 数据 。 在 第 3 章 中 ， 你 可 以 找到 该 方法 的 实现 ， 这 里 实现 过 程 基本 一 样 。 唯 一 的 区 别 在 于 命令 数 
组 索引 ， 如 下 所 示 : 


@Override 
public String execute() { 


WDIDAO dao=WDIDAO.getDAO(); 


if (command.length==5) { 


return dao.query (command[3], command[4]); 
} else if (command.length==6) { 
try { 
return dao.query (command[3], command[4], 


Short .parseShort (command[5])); 
} catch (NumberFormatException e) { 
return "ERROR;Bad Command"; 
} 
} else { 
return "ERROR;Bad Command"; 
} 
} 


ConcurrentQueryCommand 类 的 execute() 方 法 使 用 WDIDAO 类 的 report () 方 法 获取 数据 。 
在 第 3 章 中 ， 可 以 找到 该 方法 的 实现 。 这 里 的 实现 过 程 几乎 相同 ， 唯 一 的 区 别 在 于 命令 数组 索引 


@Override 
public String execute() { 


WDIDAO dao=WDIDAO.getDAO(); 
return dao.report (command[3]); 


} 

ConcurrentStatusCommang 类 在 其 构造 函数 中 有 一 个 额外 参数 : Executor 对 象 ， We 
行 这 些 命令 。 这 些 命令 使 用 该 对 象 获取 有 关 执 行 器 的 信息 ， 并 且 将 其 作为 响应 发 送 给 用 户 。 这 一 实现 
与 第 3 章 基 本 相同 。 我 们 使 用 同样 的 方法 获取 Executor 对 象 的 状态 。 

ConcurrentStopCommand 类 和 ConcurrentErrorCcommand 类 也 与 第 3 章 相 同 , 因此 不 再 对 其 
源 代码 进行 说 明 。 


4.2.3 ”服务 器 部 件 


服务 器 接收 来 自 所 有 客户 端的 查询 ， 创 建 执 行 这 些 查 询 的 命令 类 并 且 将 其 发 送 给 执行 器 。 服 务 器 
部 件 由 如 下 两 个 类 实现 。 
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口 concurrentServer 类 : 该 类 包含 服务 器 的 main () 方 法 以 及 额外 用 于 撤销 任务 和 结束 系统 
执行 的 方法 。 
口 RequestTask 类 : 该 类 创建 命令 并 且 将 其 发 送 给 执行 器 。 

与 第 3 章 中 的 例子 相 比 ， 最 主要 的 区 别 在 于 RequestTask 的 角色 。 在 SimpleServer 例子 中 ， 
ConcurrentServer 类 为 每 个 查询 创建 一 个 RequestTask 对 象 ,并且 将 其 发 送 给 执行 器 。 在 本 例 中 ， 
只 有 一 个 将 作为 线程 执行 的 RequestTask 的 实例 。 当 concurrentServer 收 到 一 个 连接 ， 它 将 与 
客户 端 通信 所 需 的 套 接 字 存放 在 待 连接 列表 中 。RequestTask 线程 读 取 该 套 接 字 ， 处 理 客户 端 发 送 
的 数据 ， 创 建 相应 的 命令 并 且 将 其 发 送 给 执行 器 。 

这 样 更 改 的 主要 原因 是 为 了 只 在 任务 中 留 下 执行 器 要 执行 的 查询 代码 ,而 将 预 处 理 代码 放 在 执行 
器 之 外 。 

1. concurrentServer 类 

ConcurrentServer 类 需要 一 些 内 部 属性 才能 更 好 地 工作 。 

口 一 个 Parallelcache 实例 ， 用 于 调用 缓存 系统 。 

口 一 个 ServerSocket 实例 ， 用 于 从 客户 端 获 取 连 接 。 

口 一 个 布尔 值 ， 用 于 指明 该 类 何 时 要 停止 执行 。 

口 一 个 LinkedBlockingQueue 实例 ， 用 于 存储 那些 向 服务 器 发 送 消 息 的 客户 端的 套 接 字 。 这 

些 套 接 字 将 由 RequestTask 类 处 理 。 

口 一 个 concurrentHashMap， 用 于 存放 执行 器 执行 的 每 个 任务 所 关联 的 Future 对 象 。 它 的 
键 是 发 送 查 询 的 用 户 名 ， 而 其 值 为 男 一 个 Map， 该 Map 的 键 是 一 个 ConcurrenCommand 对 
象 ， 它 的 值 是 与 任务 相关 联 的 Future 实例 。 使 用 这 些 Future 实例 撤销 任务 的 执行 。 

口 一 个 RequestTask 实例 ， 用 于 创建 命令 并 且 将 它们 发 送 给 执行 器 。 

口 一 个 rhread 对 象 ， 用 于 执行 RequestTask 对 象 。 

这 部 分 的 代码 如 下 。 


public class ConcurrentServer { 
private static ParallelCache cache; 
e static volatile boolean stopped=false; 
private static LinkedBlockingQueue<Socket> pendingConnections; 
private static ConcurrentMap<String, ConcurrentMap 
<ConcurrentCommand, ServerTask<?>>> 
taskController; 
private static Thread requestThread; 
private static RequestTask task; 


该 类 的 main() 方 法 初始 化 这 些 对 象 并 日 打开 serversocket 实例 监听 来 自 客户 端的 连接 ,此 外 ， 
它 创建 了 RequestTask 对 象 并 日 将 其 作为 线程 执行 。 在 此 之 后 是 一 个 循环 ， 直 到 shutdown ( ) 方法 
改变 了 stoppeqd 属性 的 取 值 为 止 。 此 后 ，main() 方 法 等 待 Excecutor 对 象 结束 ， 它 要 调用 
RequestTask 对 象 的 endTermination() 方 法 , 并 且 使 用 finishserver () 方 法 关闭 Logger 系统 
和 RequestTask 对 象 。 


privat 
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public static void main(String[] args) { 


WDIDAO dao=WDIDAO.getDAO(); 

cache=new ParallelCache(); 

Logger.initializeLog(); 

pendingConnections = new LinkedBlockingQueue<Socket>(); 

taskController = new ConcurrentHashMap<String, 
ConcurrentHashMap<Integer, Future<?>>>();} 

task=new RequestTask (pendingConnections, taskController); 

requestThread=new Thread (task); 

requestThread.start (); 


System.out .println("Initialization completed."); 


serverSocket= new ServerSocket (Constants.CONCURRENT_ PORT); 
do { 
try { 
Socket clientSocket = SerVerSocket .accept (); 
pendingConnections.put (clientSocket); 
} catch (Exception e) { 
e.printStackTrace(); 
由 
} while (!stopped); 
finishServer(); 
System.out.println("Shutting down cache"); 
cache.shutdown(); 
System.out .println("Cache ok" + new Date()); 


} 


关闭 服务 器 的 执行 器 包括 两 种 方法 。shutdown () 方 法 会 改变 stoppeq 变量 的 取 值 并 且 关 闭 
serverSocket 实例 。 finishserver () 方 法 用 于 停止 执行 器 , 中 断 执行 RequestTask 对 象 的 线程 ， 
并 且 关 闭 Logger 系统 。 我 们 将 关闭 服务 器 的 过 程 划 分 为 两 部 分 ， 直 到 服务 器 的 最 后 一 条 指令 都 可 以 
使 用 Logger 系统 。 


public static voidq shutdown() { 
stopped=true; 
try { 
serverSocket .close(); 
} catch (IOException e) { 
e.printStackTrace(); 


private static void finishServer() { 
System.out .println("Shutting down the server..."); 
task.shutdown(); 
System.out .println("Shutting down Request task"); 
requestThread.interrupt (); 
System.out .println("Request task ok"); 
System.out .println("Closing socket"); 
System.out .println("Shutting down logger"); 
Logger.sendMessage ("Shutting down the logger"); 
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Logger.shutdown(); 
System.out .println("Logger ok"); 
System.out .println("Main server thread ended"); 


} 
该 服务 器 还 包含 了 撤销 用 户 关 联 任务 的 方法 。 正 如 前 面 提 到 的 ，servez 类 使 用 一 个 散 套 的 
ConcurrentHashMap 存储 所 有 与 用 户 关联 的 任务 。 首 先 ， 获 得 含有 用 户 所 有 任务 的 Map， 然 后 调用 
Future 对 象 的 cancel () 方 法 处 理 那 些 任 务 的 所 有 Future 对 象 。 传 递 true 值 作为 参数 ， 这样 ， 如 
果 执 行 器 正在 执行 一 个 来 自 该 用 户 的 任务 ， 那 么 它 将 会 中 断 。 我 们 也 给 出 了 必要 的 代码 以 避免 撤销 


ConcurrentCancelCommand。 


public static void cancelTasks (String username) { 


ConcurrentMap<ConcurrentCommand, ServerTask<?>> userTasks = 
taskController.get (username); 
if (userTasks == null) { 
return; 
} 
int taskNumber = 0; 


Iterator<ServerTask<?>> it = userTasks.values().iterator(); 
while(it.hasNext()) { 
ServerTask<?> task = it.next(); 
ConcurrentCommand command = task.getCommand ( ) ; 
if(!(command instanceof ConcurrentCancelCommand) && 
task.cancel (true)) { 
taskNumber+t+; 
Logger.sendMessage ("Task with code "+command.hashCode()+ 
"cancelled: "+ command.getClass() 
.getSimpleName ()); 
it.remove(); 
} 
} 
String message=taskNumber+" tasks has been cancelled."; 
Logger.sendMessage (message); 


} 
最 后 我 们 还 给 出 了 finishTask () 方 法 , 当 任 务 正常 执行 结束 时 , 该 方法 从 serverTask 对 象 的 
树 套 Map 中 清除 与 该 任务 相关 的 Future 对 象 。 如 下 所 示 : 


public static void finishTask (String username, ConcurrentCommand 
command) { 


ConcurrentMap<ConcurrentCommand, ServerTask<?>> userTasks = 
taskController.get (username); 
userTasks.remove (command); 
String message = "Task with code "+command.hashCode()+ 
" has finished"; 
Logger.sendMessage (message); 


} 


2. RequestTask 类 
RequestTask 类 是 ConcurrentServer 类 与 Executor 类 之 间 的 中 介 ,，ConcurrentServer 
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草 


类 用 于 连接 客户 端 ，Executor 类 用 于 执行 并 发 任务 
读 取 查 询 数 据 ， 创 建 适当 的 命令 ,并 且 将 命令 
该 类 用 到 以 下 几 个 内 部 属性 。 


。RequestTask 类 打开 与 客户 端 连接 的 套 接 字 ， 


发 送 给 执行 髓 。 


口 Server 


口 concurrentHashMap: 存储 与 任务 相关 的 下 
该 类 的 构造 函数 初始 化 了 上 述 所 有 对 象 。 


public class RequestTask implements Runna 
private LinkedBlockingQueue<Socket> pen 


private ServerExecutor executor = new 5S 
private ConcurrentMap<String, Concurren 
ServerTask<?>>> 
public RegquestTask (LinkedBlockingQueue< 
pendingConnections, 
ConcurrentHas 

taskController) { 
this.pendingConnections = pendingConn 
this.taskController = taskController; 


} 
run () 方 法 是 该 类 的 主要 方法 。 它 执行 循环 直到 


口 LinkedBlockingQueue: ConcurrentSery r 类 在 其 中 存储 客户 端 套 接 字 。 
Executor: 将 命令 作为 并 发 任务 执行 。 


uture 对 象 。 


ble { 

dingConnections; 
erverExecutor(); 
tMap<ConcurrentCommangd, 
taskController; 

Socket> 
ConcurrentHashMap<String, 
hnMap<Integer, Future<?>>> 


ections; 


该 线程 中 断 处 天 


存放 在 pendingConnections 


Ban 


对 象 中 的 套 接 字 。 在 该 对 象 中 ，concurrentSserver 类 存储 了 与 不 同 客 户 


且 


[这 些 客户 端 都 向 该 服务 器 发 送 了 一 个 查询 。 它 打开 


命令 发 送 给 执行 器 ， 并 且 在 双重 concurrentHashMap 中 存储 Future 对 象 ， 将 该 对 象 与 人 


hashCode 以 及 发 送 查 询 的 月 


public voidq runl() 
Cry 
while (!Thread.currentThread().inte 
try { 

Socket clientSocket pendingCo 
BufferedReader in new Buffere 
InputStreamReader (clie 

String line in.readLine(); 


有 户 相 关联 。 
{ 


Logger.sendMessage (line); 
ConcurrentCommand command; 
ParallelCache cache = Concurren 
String ret cache.get (line); 
ty ee ob Ha ee 
String[] commandData 
System.out .println("Command: 
Switch (commandData[0]) { 
Case "q": 


System.out .println("Query"); 


command new ConcurrentQue 


break; 


通信 所 用 的 套 接 字 ， 并 
创建 相应 的 命令 。 它 还 将 
E 务 的 


而 


套 接 字 ， 读 取 数 据 并 且 


rrupted()) { 


nnections.take(); 
dReader (new 
ntSocket .getInputSstream())); 


tServer.getCache(); 


Tne SDLIt (ms 


+ CommandData[l0]); 


ryCommand (clientSocket, 
commandData); 
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Case "r" 
System.out.println("Report"); 
command = new ConcurrentReportCommand (clientSocket, 
commandData); 
break; 
Case "Ss": 
System.out .println("Status"); 
command = new ConcurrentStatusCommand (executor, 
clientSocket, 
commandData); 
break; 
Case "2Z": 
System.out .println("Stop"); 
command = new ConcurrentStopCommand (clientSocket, 
commandData); 
break; 
Case "c": 
System.out .println("Cancel"); 
command = new ConcurrentCancelCommand (clientSocket, 
commandData); 
break; 
default: 
System.out .println ("Error"); 
command = new ConcurrentErrorCommand (clientSocket, 


commandData); 
break; 

} 
ServerTask<?> controller = (ServerTask<?>)executor 

.submit (command); 
storeContoller (command.getUsername(), controller, command); 

} else { 
PrintWriter out = new PrintWriter (clientSocket 
.getOutputSstream(), true); 


System.out .printiln (ret); 
clientSocket.close(); 


} catch (IOException e) { 
e.printStackTrace(); 


} 
} catch (InterruptedException e) { 


// 不 需要 执行 任何 操 人 


} 


storeController () 方 法 在 双重 concurrentHashMap 中 存储 Future 对 象 。 


private void storeContoller (String userName, ServerTask<?> 
controller, ConcurrentCommand command) { 
taskController.computeIfAbsent (userName, k -> new 


ConcurrentHashMap<>()) .put (commangd, 
controller);taskController.computeIfAbsent (userName, k -> new 
ConcurrentHashMap<>()) .put (command, controller); 
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最 后 ,给 出 了 两 个 用 于 管理 Executor 类 执行 的 方法 .其 中 一 个 调用 了 面向 执行 器 的 shut down () 
方法 ， 而 另 一 个 方法 则 等 待 其 结束 。 请 记 住 ， 必 须 显 式 调用 shutdown () 方 法 或 者 shutdownNow () 
方法 以 终止 执行 器 的 执行 。 和 否则 ， 程 序 不 会 结束 。 请 看 下 面 的 代码 : 


public voidq shutdown() { 


String message="Request Task: "+pendingConnections.size()+" 
pending connections."; 

Logger.sendMessage (message); 

executor.shutdown (); 


} 


public void terminate() { 
try { 
executor.awaitTermination(1,TimeUnit.DAYS); 
executor.writeStatistics(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


4.2.4 ”客户 端 部 件 
现在 ,该 是 测试 服务 器 的 时 候 了 。 在 本 例 中 ， 并 不 用 担心 执行 时 间 ， 测 试 的 主要 目标 是 检查 新 功 


将 客户 端 部 件 划分 成 下 述 两 个 类 。 

口 The ConcurrentClient 类 : 该 类 实现 了 服务 器 单独 的 一 个 客户 端 。 该 类 的 每 个 实例 都 有 不 
同 的 用 户 名 称 。 该 客户 端 创建 了 100 个 查询 ， 其 中 90 个 为 Query 型 ，10 个 为 Report 型 。 
Query 型 的 查询 其 优先 级 为 5， 而 Report 型 的 查询 优先 级 较 低 为 10。 

口 MultipleconcurrentCclient 类 : 该 类 以 并 行 方式 度量 了 多 个 并 发 客户 端的 行为 。 我 们 使 
用 了 1 到 5 个 并 发 客户 端 测试 服务 器 。 该 类 还 测试 了 cancel 命令 和 stop 命令 。 

我 们 采用 一 个 执行 器 执行 对 服务 器 的 并 发 请 求 ， 以 便 增加 客户 端的 并 发 层级 。 

在 下 面 的 屏幕 截图 中 ， 可 以 看 到 任务 撤销 的 结 稀 


‘i 


[e) 


22953 @1:13:39 CET 2816: Fri Dec 23 691:13:34 CET 2016: Task with code 195713384cancelled: ConcurrentQueryCommand 
22963 01:13:39 CET 2816: Fri Dec 23 691:13:34 CET 2016: Task with code 1547932163cancelled: ConcurrentReportCommand 
22973 91:13:39 CET 2816: Fri Dec 23 61:13:34 CET 2816: Task with code 1917877449cancelled: ConcurrentQueryCommand 
22983 61:13:39 CET 2616: Fri Dec 23 61:13:34 CET 2616: Task with code 158366644cancelled: ConcurrentQueryCommand 
22993 61:13:39 CET 2616: Fri Dec 23 61:13:34 CET 2616: Task with code 336552833cancelled: ConcurrentQueryCommand 
23003 601:13:39 CET 2816: Fri Dec 23 01:13:34 CET 2816: 5 tasks has been cancelled 

23013 91:13:39 CET 2816: Fri Dec 23 61:13:34 CET 2816: Tasks of user USER 2 has been cancelled. 


在 本 例 中 ,用 户 USER_2 的 四 个 任务 已 被 撤销 。 
下 面 的 屏幕 截图 展示 了 每 个 用 户 的 任务 数量 和 执行 时 间 的 最 终 统 计 信 息 。 
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4509 Fri Dec 23 860:46:88 CET 2816: Fri Dec 23 80:46:860 CET 2816: Task with code 938223162 has finished 

4510Fri Dec 23 606:46:66 CET 2616: Fri Dec 23 600:46:96 CET 2816: USER_ 2:Executed Tasks: 4080. Execution Time: 10574 
4511 Fri Dec 23 600:46:66 CET 2816: Fri Dec 23 00:46:06 CET 2816: USER_3:Executed Tasks: 380. Execution Time: 7074 
4512Fri Dec 23 6060:46:66 CET 2816: Fri Dec 23 6060:46:06 CET 2016: USER_1:Executed Tasks: 580. Execution Time: 14454 
4513Fri Dec 23 66:46:66 CET 2616: Fri Dec 23 69:46:66 CET 2616: admin:Executed Tasks: 1. Execution Time: 1 
4514Fri Dec 23 66:46:66 CET 2616: Fri Dec 23 600:46:06 CET 2816: USER_4:Executed Tasks: 200. Execution Time: 5381 
4515 Fri Dec 23 66:46:66 CET 2616: Fri Dec 23 06:46:66 CET 2616: USER_5:Executed Tasks: 1686. Execution Time: 2443 
4516 Fri Dec 23 66:46:66 CET 2616: Fri Dec 23 80:46:068 CET 2816: Shuttingdown the logger 
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在 前 面 含 有 执行 器 的 例子 中 ,各 任务 都 被 执行 一 次 ， 而 且 都 被 尽快 执行 。 执 行 器 框架 包括 了 其 他 
一 些 执行 器 实现 ， 这 使 我 们 在 任务 的 执行 时 间 上 有 了 更 多 的 灵活 性 。scheduledThreadPoo1- 
Executor 类 使 我 们 可 以 周期 性 地 执行 任务 ， 或 者 经 过 某 一 延 时 后 执行 任务 。 

本 节 将 通过 实现 一 个 RSS 订阅 程序 ， 促 使 你 学 会 如 何 执行 周期 性 任务 。 在 这 个 简单 的 例子 中 ， 
需要 定期 执行 同一 任务 ( 阅读 RSS 订阅 上 的 新 闻 )。 我 们 的 例子 有 如 下 几 个 特征 。 
口 在 文件 中 存储 RSS 源 。 我 们 从 一 些 重要 的 报纸 (例如 《纽约 时 报 》《 每 日 新 闻 》《 卫 报 》 等 ) 
上 选取 了 一 些 世 界 新 闻 。 

口 对 每 个 RSS 源 ， 我 们 向 执行 器 发 送 一 个 Runnable 对 象 。 每 当 执 行 器 运行 对 象 时 ， 它 会 解析 

RSS 源 并 且 将 其 转换 成 一 个 含有 RSS 内 容 的 CommonInformationItem 对 象 列表 。 

口 我 们 使 用 生产 者 /消费 者 设计 模式 将 RSS 新 闻 写 人 磁盘 。 生 产 者 是 执行 器 的 任务 ， 它 们 将 每 个 
CommonInformationItem 写 人 到 缓存 中 。 缓 存 中 仅 存 储 新 条 目 。 消 费 者 是 一 个 独立 线程 ， 
它 从 缓存 中 读 取 新 闻 并 将 其 写 入 磁盘 。 

从 任务 执行 结束 到 下 一 次 执行 的 时 间 间 隔 是 1 分 钟 。 

我 们 还 实现 了 这 个 例子 的 高 级 版 本 , 在 该 版 本 中 , 一 个 任务 的 两 次 执行 之 间 的 时 间 间 隔 是 可 变 的 。 


4.3.1 公共 部 件 


正如 前 面 提 过 的 ， 我 们 读 取 一 个 RSS 订阅 并 将 其 转换 成 一 个 对 象 列表 。 为 了 解析 该 RSS 文件 ， 
将 其 视 为 一 个 XML 文件， 而且 在 RSsDatacapturer 类 中 实现 了 一 个 SAX (Simple API for XML 的 
缩写 ) 解析 器 。 它 可 以 解析 该 文件 并 且 创 建 一 个 commonInformationItem 列表 。 该 类 为 每 个 RSS 
项 都 存储 了 下 述 信息 。 
口 Title: RSS 项 的 标题 。 
口 Date: RSS 项 的 日 期 。 
口 Link: RSS 项 的 链接 。 
口 Description: RSS 项 的 文本 描述 。 
口 ID: RSS 项 的 ID。 如果 该 项 并 不 含有 ID ， 那 么 我 们 还 可 以 计算 其 ID。 
口 Source: RSS 源 的 名 称 。 
由 于 使 用 生产 者 /消费 者 设计 模式 将 新 闻 存 入 磁盘 , 因此 需要 用 缓存 储存 新 闻 , 而 且 在 本 例 中 还 需 
要 一 个 consumer 类 ， 该 类 可 从 缓存 中 读 取 新 闻 并 将 其 写 和 人 磁盘。 
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我 们 在 NewsBuffer 类 中 实现 了 缓存 ， 该 类 有 两 个 内 部 属性 。 

口 LinkedBlockingQueue: 这 是 一 个 带 有 阻塞 操作 的 并 发 数据 结构 。 如 果 从 列表 中 获取 某 个 项 
但 是 列表 为 空 ， 那 么 调用 方法 的 线程 就 会 被 阻塞 ， 直 到 列表 中 有 元 素 为 止 。 我 们 使 用 这 种 结 
构 存储 CommonInformationItems。 

口 concurrentHashMap: 这 是 HashMap 的 一 个 并 发 实现 。 它 用 来 存储 之 前 在 缓存 中 存放 的 各 

新 闻 项 的 ID。 

我 们 将 只 插入 那些 此 前 并 未 插 和 人 缓存 中 的 新 闻 。 


public class NewsBuffer { 
private LinkedBlockingQueue<CommonInformationItem> buffer; 
private ConcurrentHashMap<String, String> storedItems; 


public NewsBuffer() { 
buffer=new LinkedBlockingQueue<>();} 
storedItems=new ConcurrentHashMap<String, String>(); 


} 
我 们 在 NewsBuffer 类 中 给 出 了 两 种 方法 。 其 中 一 种 方法 用 于 将 某 一 项 存储 到 缓存 , 并 预先 检查 
该 项 此 前 是 否 已 经 插入 ; 另 一 种 方法 用 于 从 缓存 中 获取 下 一 项 。 使 用 compute () 方 法 将 元 素 插 人 
ConcurrentHashMap。 该 方法 接收 一 个 lambda 表达 式 作 为 参数 ， 其 中 含有 键 和 与 键 相 关联 的 实际 值 
( 如 果 该 键 没有 相关 联 的 值 则 为 null )。 在 我 们 的 例子 中 ， 将 此 前 并 未 处 理 过 的 项 加 入 缓存 。 我 们 使 用 
add() 方 法 和 take () 方 法 插入 、 获 取 和 删除 队列 中 的 元 素 。 
public voidq add (CommonInformationItem item) { 
storedItems.compute(item.get1id(), (id, oldSource) -> { 
if(oldSource == null) { 
buffer.add (item); 
return item.getSource(); 
} else { 


System.out .println("Item "+item.getIid()+" has been processed 
before"); 


return oldSource; 
} 
1 
} 


public CommonIinformationItem get() throws InterruptedException { 
return buffer.take(); 


} 
缓存 的 项 可 通过 NewsWriter 类 写 入 磁盘 , 该 类 将 作为 一 个 独立 线程 执行 。 该 类 只 有 一 个 内 部 属 
性 ， 该 属性 指向 在 应 用 程序 中 使 用 的 NewsBuffer 类 。 


public class NewsWriter implements Runnable { 
private NewsBuffer buffer; 
public NewsWriter (NewsBuffer buffer) { 
this.buffer=buffer; 


该 Runnable 对 象 的 run() 方 法 从 缓存 中 获取 CommonInformationItem 实例 并 日 将 其 保存 到 


0 
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磁盘 。 与 使 用 阻塞 型 方法 一 样 ， 如 果 该 缓存 为 空 ， 则 该 线程 将 被 阻塞 ， 直 到 缓存 中 有 元 素 为 止 。 


public void run() { 
ty Sf 
while (!Thread.currentThread().interrupted()) { 


CommonIinformationItem item=buffer.get(); 
Path path=Paths.get ("output\\"+item.getFileName()); 


try (BufferedWriter fileWwriter = Files.newBufferedWriter 
(path, StandardOpenOption.CREATE)) { 
fileWriter.write(item.toString()); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
j 
} catch (InterruptedException e) { 
// 正常 执行 
} 


4.3.2 ”基础 阅读 器 


该 基础 阅读 器 将 使 用 标准 的 ScheduledThreadPoolExecutor 类 执行 周期 性 任务 。 我 们 对 每 个 
RSS 源 都 执行 一 个 任务 ， 而且 从 任务 执行 结束 到 下 次 执行 开始 间隔 时 间 为 一 分 钟 。 这 些 并 发 任务 都 是 
在 NewsTask 类 中 实现 的 , 该 类 有 三 个 内 部 属性 , 用 于 存储 RSS 订阅 的 名 称 、URL,， 以 及 用 于 存储 新 
闻 的 NewsBuffer 类 。 


public class NewsTask implements Runnable { 
private String name; 
private String url; 
private NewsBuffer buffer; 


public NewsTask (String name, String url, NewsBuffer buffer) { 
this.name=name; 
tis trleurl3 
this.buffer=buffer; 

} 


该 Runnable 对 象 的 run() 方 法 直接 解析 RSS 订阅 ,获取 一 个 commonItemInterface 实例 列表 ， 
并 将 它们 存储 到 缓存 中 。 该 方法 将 周期 性 执行 。 每 次 执行 时 ， 该 run () 方 法 都 将 从 开始 执行 到 结束 。 


@Override 
public void run() { 
System.out.println(name + " : Running. " + new Date()); 


RSSDataCapturer capturer = new RSSDataCapturer (name); 
List<CommonInformationItem> items=capturer.load (url); 


for (CommonInformationItem item: items) { 
buffer.add (item); 
} 
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在 本 例 中 ， 还 实现 了 另 一 个 线程 ， 以 完成 执行 器 和 任务 的 初始 化 ， 然 后 等 待 执行 结束 。 我 们 已 将 


这 个 类 命名 为 NewsSystem。 该 类 有 三 个 内 部 属性 : 用 于 存储 含有 RSS 源 的 文件 路 径 、 用 于 存放 新 闻 
的 缓存 、 以 及 一 个 控制 其 执行 结束 的 countDownLatch 对 象 。countDownLatch 类 是 一 种 同步 机 制 ， 


多 


局 


public class NewsSystem implements Runnable { 
private String route; 
private ScheduledThreadPoolExecutor executor; 
private NewsBuffer buffer; 
private CountDownLatch latch=new CountDownLatch(1); 


public NewsSystem(String route) { 
this.route = route; 
executor = new ScheduledThreadPoolExecutor 


许 存在 一 个 线程 等 待 某 一 事件 。 第 11 章 将 详细 介绍 该 类 的 用 途 。 我 们 有 如 下 代码 。 


(Runtime .getRuntime () .availableProcessors()); 


buffer=new NewsBuffer(); 


} 


在 run() 方 法 中 ,我 们 读 取 了 所 有 的 RSS 源 ， 为 每 个 RSS 源 创建 了 一 个 NewsTask 类 ， 并 且 将 
它们 发 送 给 ScheduledThreadPool 执行 器 。 使 用 Executors 类 的 newscheduledThreadPoo1l () 
方法 创建 执行 器 , 并 使 用 scheduleAtFixedDelay () 方 法 将 任务 发 送 给 该 执行 器 ,也 将 NewsWriter 


实例 作为 一 个 线程 启动 。run () 方 法 等 待 通知 消 


自 


检 记 


在 收 到 通知 后 采用 countDownLatch 类 的 await () 


方法 结束 其 执行 ， 
@Override 
public voidq run() { 
Path file = Paths.get (route); 
NewsWriter newsWriter=new NewsWriter (buffer); 
Thread t=new Thread (newsWriter); 
tstart() 


try (InputStream in = Files.newInputStream(file); 
BufferedReader reader = new BufferedReader (new 


InputStreamReader (in))) { 
String line = null; 
while ((line = reader.readLine()) != null) { 
String datal[l] = line.split(";"); 


并 且 结 束 Newswriter 任务 和 scheduledFExecutor 的 执行 。 


NewsTask task = new NewsTask (data[0], datal[l1], buffer); 


System.out .println("Task "+task.getName ()); 
executor.scheduleWithFixedDelay (task,0, 1, 
TimeUnit .MINUTES); 
} 
} catch (Exception e) { 
e.printStackTrace(); 


pr 
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4.3 
synchronized (this) { 
Cry 
latch.await (); 
} catch (InterruptedException e) { 


e.printSstackTrace(); 


System.out .println("Shutting down the executor."); 


executor.shutdown(); 


ee 


interrupt (); 


System.out .println("The system has finished."); 


} 


我 们 还 实现 了 shutdown () 方 法 。 该 方法 将 告知 NewsSystem 类 必须 使 月 


的 countDown() 方 法 停止 其 执行 过 程 。 该 方法 将 会 唤醒 run() 方 法 ， 这 样 就 可 以 关闭 正在 运行 


NewsTask 对 象 的 执行 融 。 


public void shutdown() { 
latch.countDown(); 


} 


日 CountDownLatch 类 


本 例 最 后 一 个 类 是 Main 类 ， 它 实现 了 该 例 中 的 main () 方 法 。 该 类 将 NewsSystem 实例 作为 一 


个 线程 启动 ， 等 待 10 分 钟 后 ， 通 知 线程 结束 执行 ， 进 


public class Main { 


public static void main(String[] 


} 


args) { 


// 创建 system 并 将 其 作为 一 个 线程 执行 


而 结束 整个 系统 的 执行 ， 


如 下 所 示 。 


NewsSystem system=new NewsSystem("data\\sources.txt"); 


Thread t=new Thread (system); 
tStart(y} 


// 等 待 10 分 钟 

bry 
TimeUnit .MINUTES.sleep(10); 

} catch (InterruptedException e) { 
e.printSstackTrace(); 


} 
// 通知 system 终止 


system.shutdown(); 


执行 本 例 时 , 可 以 看 到 各 个 任务 如 何以 周期 性 方式 执行 , 以 及 新 闻 项 如 何 写 入 磁盘 , 如 下 图 所 示 。 


Frask The New York Times 

Task Daily News 

Task Washington Post 

Task Los Angeles Times 

Task Wall Street Journal 

Task Denver Post 

Task New York Post 

Task Newsday 

Task BBC 

Task Financial Times 

The New York Times: Running. Fri Dec 23 12:85:38 CET 2016 
Daily News: Running. Fri Dec 23 12:65:38 CET 2616 
Washington Post: Running. Fri Dec 23 12:65:38 CET 2816 
Los Angeles Times: Running. Fri Dec 23 12:05:38 CET 2016 
Wall Street Journal: Running. Fri Dec 23 12:605:39 CET 2616 
Denver Post: Running. Fri Dec 23 12:85:39 CET 2616 

Item https://www.washingtonpost.com/world/the_americas/explosi 
New York Post: Running. Fri Dec 23 12:05:39 CET 2816 
Newsday: Running. Fri Dec 23 12:05:39 CET 2616 

BBC: Running. Fri Dec 23 12:65:39 CET 2616 

Financial Times: Running. Fri Dec 23 12:85:39 CET 2616 


4.3.3 ”高 级 阅读 器 


淋 


基础 新 闻 阅 读 器 是 一 个 使 用 ScheduleqThreadPool1 


Executor 类 的 例子 ,不 过 我 们 可 以 更 深入 。 


与 使 用 ThreadPoolExecutor 的 情形 一 样 ， 可 以 实现 自己 的 ScheduledThreadPoolExecutor 获 


得 特定 行为 。 在 我 们 的 例子 中 ， 和 希望 周期 性 任务 的 延迟 时 间 随 着 一 天 中 的 时 刻 而 改变 。 


将 学 到 如 何 实 现 这 一 行为 。 


第 一 步 是 实现 一 个 类 ， 


在 这 部 分 ， 你 


用 于 获取 一 个 周期 性 任务 两 次 执行 之 间 的 时 延 。 我 们 将 其 命名 为 Timer 


类 。 该 类 只 有 一 个 名 为 getPeriod () 的 静态 方法 ， 该 方法 返回 的 是 本 次 执行 结束 到 下 次 执行 开始 之 
间 的 毫秒 数 。 下 面 是 实现 过 程 ， 不 过 也 可 以 自己 编写 代码 。 


public class Timer 


{ 


public static long getPeriod() { 
Calendar calendar = Calendar.getInstance();} 
int hour = calendar.get (Calendar.HOUR_OF_DAY); 


i (Ou. Sa.6) 
return TimeUnit.MILLISECONDS.convert (1, TimeUnit .MINUTES); 


} 


&& (hour <= 8)) { 


if ((hour >= 13) && (hour <= 14)) 1 


return TimeUnit.MILLISECONDS.convert (1, TimeUnit .MINUTES); 


} 


if ((hour >= 20) && (hour <= 22)) { 


return TimeUnit.MILLISECONDS.convert (1, TimeUnit .MINUTES); 


} 


return TimeUnit.MILLISECONDS.convert (2, 


} 


TimeUnit .MINUTES) ; 


接 下 来 ， 还 要 实现 执行 器 的 内 部 任务 。 向 执行 器 发 送 一 个 Runnable 对 象 时 ， 从 外 部 来 讲 ， 可 以 
将 该 对 象 视 为 并 发 任务 ， 但 是 执行 器 会 将 该 对 象 转换 成 另 一 个 任务 ， 即 FutureTask 类 的 一 个 实例 ， 
转换 方法 包括 用 于 执行 任务 的 run () 方 法 和 用 于 管理 任务 执行 的 Future 接口 中 的 方法 。 为 了 实现 这 
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个 例子 ,必须 实现 一 个 类 用 以 扩展 FutureTask 类 ,而 且 因为 将 在 预定 的 执行 器 中 执行 这 些 任 务 ， 必 须 
实现 RunnableScheduledFuture 接口 。 该 接口 提供 了 getDelay () 方 法 , 该 方法 返回 了 距离 任务 下 一 
次 执行 所 剩余 的 时 间 。 我 们 已 在 ExecutorTask 类 中 实现 了 这 些 内 部 任务 ， 该 类 有 如 下 四 个 内 部 属性 。 
口 由 scheduledThreadPoolExecutor 类 创建 的 初始 RunnablescheduleqFuture 内 部 任务 。 
口 执行 该 任务 的 预定 执行 器 。 

口 该 任务 下 一 次 执行 的 起 始 时 间 。 

口 RSS 订阅 的 名 称 。 

代码 如 下 所 示 。 


public class ExecutorTask<V> extends FutureTask<V> implements 
RunnableScheduledFuture<V> { 
private RunnableScheduledFuture<V> task; 


private NewsExecutor executor; 
private long startDate; 
private String name; 


public ExecutorTask (Runnable runnable, V result, 

RunnableScheduledFuture<V> task, 
NewsExecutor executor) { 

super (runnable, result); 

this.task = task; 

this.executor = executor; 

this.name=( (NewsTask)runnable) .getName (); 

this.startDate=new Date() .getTime(); 


i 


我 们 在 该 类 中 重 载 或 者 实现 了 不 同 的 方法 。 第 一 个 是 getDelay () 方 法 ， 如 前 所 述 ， 该 方法 在 给 
定 的 时 间 单位 内 返回 距离 任务 下 次 执行 的 剩余 时 间 。 


QOverride 
public long getDelay (TimeUnit unit) { 
long delay; 
if (!isPeriodic()) { 
delay = task.getDelay (unit); 
} else { 
if (startDate == 0) { 
delay = task.getDelay (unit); 
} else { 


Date now = new Date(); 

delay = startDate - now.getTime(); 

delay unit.convert (delay, TimeUnit.MILLISECONDS); 
} 


} 


return delay; 


} 
接 下 来 是 用 于 对 比 两 个 任务 的 compareTo () 方 法 ， 主 要 考量 这 两 个 任务 下 次 执行 的 起 始 时 间 。 
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@Override 
public int compareTo(Delayed object) { 
return Long.compare (this.getStartDate(), 


( (ExecutorTask<V>)object) .getStartDate()); 
} 


然后 ， 如 果 任 务 是 周期 性 的 ， 则 ijsPeriodic() 方 法 返回 true， 否 则 返回 false。 


@Override 
public boolean isPeriodic() { 
return task.isPeriodic(); 


} 


最 后 ,在 run() 方 法 中 实现 了 本 例 最 重要 的 部 分 ,首先 , 调用 FutureTask 类 的 runAndReset () 
方法 。 该 方法 执行 任务 并 日 重 置 其 状态 ， 这 样 任务 就 可 以 再 次 执行 。 然 后 ,使 用 Timer 类 计算 下 次 
执行 的 起 始 时 间 。 最 后 ， 还 要 在 ScheduledThreadPoolExecutor 类 的 队列 中 再 次 插入 该 任务 。 如 
果 不 做 最 后 一 步 ， 那 么 任务 就 不 会 像 如 下 所 示 这 样 再 次 执行 。 

@Override 

public void run() { 

if (isPeriodic() && ( 
super.runAndReset () 
Date now=new Date(); 
startDate=now.getTime()+Timer.getPeriod(); 
executor.getQueue() .add (this); 
System.out .println("Start Date: "+new Date(startDate)); 


lexecutor.isShutdown())) { 


’ 


} 


一 旦 有 了 面向 执行 器 的 任务 后 ， 则 必须 实现 执行 器 。 我 们 实现 了 NewsExecutor 类 ， 用 以 扩展 
ScheduledThreadPoolExecutor 类 。 我 们 重 载 了 daecorateTask () 方 法 ， 有 了 该 方法 ， 就 可 以 替 
换 预 定 执行 器 使 用 的 内 部 任务 。 默 认 情 况 下 ， 该 方法 返回 RunnableScheduledFuture 接口 的 默认 
实现 ， 但 是 在 我 们 的 例子 中 ， 它 将 返回 Executor 扩展 类 的 一 个 实例 。 


public class NewsExecutor extends ScheduledqThreadPoolLExecutor { 


public NewsExecutor (int corePoolSize) { 
super (corePoolSize); 


} 


@Override 
protected <V> RunnableScheduledFuture<V> decorateTask (Runnable 
runnable, RunnableScheduledFuture<V> task) { 
ExecutorTask<V> myTask = new ExecutorTask<>(runnable, null, 


task, this); 
return myTask; 
} 
} 


为 了 实现 NewsSystem 的 其 他 版 本 ， 以 及 使 用 NewsExecutor 的 Main 类 ， 我们 实现 了 News- 
AdvancedSystem 和 AdvancedMain。 


现在 ,你 可 以 运行 高 级 新 闻 系 统 ， 查 看 各 次 执行 之 间 延 迟 时 间 的 变化 。 
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4.4 ”有 关 执 行 器 的 其 他 信息 


本 章 扩 展 了 ThreadPoolExecutor 类 和 scheduledThreadPoolExecutor 类 ， 并 且 重 载 了 其 
中 的 一 些 方法 。 但 是 如 果 想 实现 更 多 特殊 行为 ， 还 可 以 重 载 更 多 方法 。 下 面 是 可 以 重 载 的 一 些 方法 。 
口 shutdown () : 必须 显 式 调用 该 方法 以 结束 执行 器 的 执行 ， 也 可 以 重 载 该 方法 ， 加 入 一 些 代 
码 释放 执行 器 所 使 用 的 额外 资源 。 

口 shutdownNow() : shutdown() 方 法 和 shutdownNow() 方 法 之 间 的 区 别 在 于 shutdown() 方 

法 要 等 待 执行 器 中 所 有 处 于 等 待 状态 的 任务 全 部 终结 。 

D submit () 、invokeall() 或 者 invokeany () : 可 以 调用 这 些 方法 向 执行 器 发 送 并 发 任务 。 
如 果 需 要 在 将 任务 插入 到 执行 器 任务 队列 之 前 或 之 后 进行 一 些 操作 ， 就 可 以 重 载 这 些 方法 。 
请 注意 ， 在 任务 进行 排队 之 前 或 之 后 添加 定制 操作 与 在 该 任务 执行 之 前 或 之 后 添加 定制 操作 
是 不 同 的 ， 这 些 操 作 要 考虑 到 重 载 beforeExecute() 方 法 和 afterExecute() 方 法 。 

在 新 闻 阅 读 器 例子 中 ， 我 们 使 用 schnedulewithFixedDelay () 方 法 将 任务 发 送 给 执行 器 。 但 是 
ScheduledThreadPoolExecutor 类 还 有 其 他 一 些 方法 可 用 于 执行 周期 性 任务 或 者 延迟 之 后 的 任务 。 
口 schedule () : 该 方法 在 给 定 延 迟 之 后 执行 某 个 任务 ， 且 该 任务 仅 执行 一 次 。 

口 scheduleAtFixedRate() : 该 方法 按照 给 定 周期 执行 一 个 周期 性 任务 。 它 与 schedule- 
WithFixedDelay () 方 法 的 区 别 在 于 ， 对 于 后 者 而 言 ， 两 次 执行 之 间 的 延迟 是 指 第 一 次 执行 
结束 之 后 到 第 二 次 执行 之 前 的 时 间 ; 而 对 于 前 者 而 言 ， 两 次 执行 之 间 的 延迟 是 指 两 次 执行 起 
台 之 间 的 时 间 。 


4.5 小结 


本 章 通过 介绍 两 个 例子 探索 了 执行 器 的 高 级 特性 。 在 第 一 个 例子 中 , 延 用 了 第 3 章 中 客户 端 /服务 
器 的 例子 。 通 过 扩展 ThreadPoo1lExecutor 类 实现 了 自己 的 执行 器 ， 以 便 按 照 优先 级 执行 任务 ， 并 
且 度 量 每 个 用 户 任 务 的 执行 时 间 。 此 外 ， 还 引入 了 一 种 新 的 命令 支持 任务 的 撤销 。 

在 第 二 个 例子 中 ， 解 释 了 如 何 使 用 schneduledThreadPoolExecutor 类 执行 周期 性 任务 。 实 现 
了 两 个 版 本 的 新 闻 阅 读 器 。 第 一 个 版 本 展示 了 如 何 使 用 scheduledExecutorservice 的 基本 功能 ， 
第 二 个 版 本 展示 了 如 何 履 盖 scheduledExecutorService 类 的 行为 , 例如 改变 任务 两 次 执行 之 间 的 
延迟 时 间 。 

下 一 章 将 学 习 如 何 执行 返回 结果 的 Executor 任务 。 如 果 扩 展 Thread 类 或 者 实现 Runnable 接 
口 ，z*un () 方 法 并 不 会 返回 任何 结果 , 但 是 包含 了 callaple 接口 的 执行 器 框架 则 允许 实现 返回 结果 
的 任务 。 


RU 


从 任务 获取 数据 : callable 
接口 与 Future 接口 


在 第 3 章 和 第 4 章 中 ,我 们 引入 了 执行 器 框架 来 改进 并 发 应 用 程序 的 性 能 ， 并 且 展 示 了 如 何 实现 


高 级 特性 以 使 该 框架 适应 你 的 需求 。 在 这 两 章 中 ， 执 行 器 执行 的 所 有 任务 都 基于 Runnapble 接口 ， 而 
其 run() 方 法 并 不 返回 值 。 然而 , 执行 器 框架 也 允许 我 们 执行 其 他 基于 callable 接口 和 Future 接 
口 返回 值 的 任务 。callapble 是 一 种 函数 接口 ， 它 定义 了 call() 方 法 。call() 方 法 可 以 抛 出 一 种 与 


Future 接口 来 打包 ， 而 Future 


ma 


nable 接口 不 同 的 校 验 异 常 。callapble 接口 的 处 理 结 果 要 


接口 则 描述 了 异步 计算 的 结果 。 本 章 将 讲述 下 述 主题 。 


口 callable 接口 和 Future 接口 简介 。 
口 第 一 个 例子 : 单词 最 佳 匹 配 算法 。 
口 第 二 个 例子 : 为 文档 集 创 建 倒 排 索引 。 


5.1 callable 接口 和 Future 接口 简介 


执行 器 框架 允许 编程 人 员 执 行 并 发 任务 而 无 须 创 建 和 管理 线程 。 你 可 以 创建 任务 并 将 其 发 送 给 执 


行 器 ， 而 执行 器 负责 创建 和 管理 所 需 的 线程 。 


在 执行 器 中 ， 你 可 以 执行 两 种 任务 。 

口 基于 Runnable 接口 的 任务 : 这 些 任务 实现 了 不 返回 任何 结果 的 run () 方 法 。 

口 基于 callable 接口 的 任务 : 这 些 任务 实现 了 返回 某 个 对 象 作 为 结果 的 call () 接 口 。call () 
方法 返回 的 具体 类 型 由 callable 接口 的 泛 型 参数 指定 。 为 了 获取 该 任务 返回 的 结果 ， 执 行 
器 会 为 每 个 任务 返回 一 个 Future 接口 的 实现 。 

在 前 面 的 几 章 中 , 你 了 解 了 如 何 创 建 执行 器 ,如 何 基于 Runnable 接口 向 执行 器 发 送 任务 ， 以 及 


如 何 个 性 化 定制 执行 器 以 适应 你 的 需求 。 本 章 ， 你 将 学 习 如 何 基于 callable 接口 和 Future 接口 来 


与 人 


5.1. 


F 务 打交道 。 
1 callable 接口 


Callable 接口 是 一 个 与 Runnable 接口 非常 相似 的 接口 。callable 接口 的 主要 特征 如 下 。 
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口 它 是 一 个 通用 接口 。 它 有 一 个 简单 类 型 参数 ， 与 cal1 () 方 法 的 返回 类 型 相对 应 。 
口 它 声 明了 cal1 () 方 法 。 执 行 需 运行 任务 时 ， 该 方法 会 被 执行 器 执行 。 它 必须 返回 声明 中 指 


定 类 型 的 对 象 。 
口 call () 方 法 可 以 抛 出 任何 一 种 校 验 异 常 。 你 可 以 实现 自己 的 执行 需 并 重 载 afterExecute () 
方法 来 处 理 这 些 异 常 。 


5.1.2 ”Future 接口 


当 你 向 执行 器 发 送 一 个 callable 任务 时 , 它 将 为 你 返回 一 个 Future 接口 的 实现 ,这 人 允许 你 控 

制 任务 的 执行 和 任务 状态 ， 使 你 能 够 获取 结果 。 该 接口 的 主要 特征 如 下 。 

口 你 可 以 使 用 cancel () 方 法 来 撤销 任务 的 执行 。 该 方法 有 一 个 布尔 型 参数 ， 用 于 指定 是 否 需 

要 在 任务 运行 期 间 中 断 任务 。 

口 你 可 以 校 验 任 务 是 否 已 被 撤销 (采用 iscancelled() 方 法 ) 或 者 是 否 已 经 结束 (采用 ispone () 

方法 ) 。 

口 你 可 以 使 用 get () 方 法 获取 任务 返回 的 值 。 该 方法 有 两 个 变 体 。 第 一 个 变 体 不 带 有 参数 ， 当 
任务 完成 执行 后 ， 该 变 体 将 返回 任务 所 返回 的 值 。 如 果 任 务 并 没有 完成 执行 ， 它 将 挂 起 执行 
线程 直到 任务 执行 完毕 。 第 二 个 变 体 带 有 两 个 参数 : 时间 周期 和 该 周期 的 TrimeUnit ( 时间 
单位 ) 。 该 变 体 与 第 一 个 变 体 的 区 别 在 于 将 线程 等 待 的 时 间 周 期 作为 参数 来 传递 。 如 果 这 一 
周期 结束 后 任务 仍 未 结束 执行 ， 该 方法 就 会 抛 出 一 个 TimeoutException 异常 。 


5.2 第 一 个 例子 : 单词 最 佳 匹 配 算法 


单词 最 佳 匹 配 算法 的 主要 目标 是 找 出 与 作为 参数 的 字符 串 最 相似 的 单词 。 要 实现 一 个 这 样 的 算 

法 ， 需 要 做 如 下 准备 。 

口 单词 列表 : 在 我 们 的 例子 中 使 用 了 英国 高 级 疑难 词典 (UKACD ) ， 这 是 专门 为 填 字 游戏 社区 

编纂 的 一 个 单词 列表 ， 有 250 353 个 单词 和 习惯 用 语 。 

口 用 于 评估 两 个 单词 之 间 相 似 度 的 指标 : 我 们 使 用 Levenshtein 距离 来 度量 两 个 字符 序列 的 差 
异 。Levenshtein 距离 是 指 ， 将 第 一 个 字符 串 转 换 成 第 二 个 字符 串 所 需 进 行 的 最 少 的 插入 、 删 
除 或 替换 操作 次 数 。 你 可 以 查看 维基 百科 关于 “Levenshtein distance” 的 解释 ， 找 到 对 这 一 指 
标的 简要 描述 。 

在 我 们 的 例子 中 ， 你 可 以 实现 如 下 两 个 操作 。 

口 第 一 个 操作 使 用 Levenshtein 距离 返回 与 某 个 字符 序列 最 相似 的 单词 列表 。 

口 第 二 个 操作 是 使 用 Levenshtein 距离 来 判定 我 们 的 字典 当中 是 否 存在 某 个 字符 序列 。 如 果 
我 们 使 用 equals () 方 法 ， 速 度 将 会 更 快 。 但 是 就 本 书 的 目的 而 言 ， 我 们 的 版 本 则 是 更 好 
的 选择 。 

你 将 实现 上 述 操作 的 串 行 版 本 和 并 发 版 本 ， 以 便 验 证 在 本 例 中 使 用 并 发 处 理 是 否 确 实 有 帮助 。 
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从 任务 获取 数据 : Callable 接口 与 Future 接口 


5.2.1 公共 类 
在 本 例 实现 的 所 有 任务 中 ， 


口 WordsLoader 类 : 


都 将 用 到 下 面 三 个 基 类 。 


输入 字符 串 之 间 的 距离 


用 于 将 单词 列表 加 载 到 字符 串 对 象 列表 中 。 
口 LevenshteinDistance 类 : 用 于 计算 两 个 字符 串 之 间 的 Levenshtein 距离 。 
口 BestMatchingData 类 : 用 于 存放 最 佳 匹 配 算法 的 结果 。 它 存储 了 单词 列表 以 及 这 些 单词 与 


o 


UKACD 在 文件 中 是 按照 每 行 一 个 单词 的 形式 存放 的 ， 这 样 实现 1o0ad () 静态 方法 的 Worgs- 
Loagder 类 在 接收 到 单词 列表 文件 的 路 径 之 后 ， 就 会 返回 一 个 含有 250 353 个 单词 的 字符 串 对 象 列表 。 

LevenshteinDistance 类 实现 了 calculate () 方 法 ， 该 方法 接收 两 个 字符 串 对 象 作为 参数 ， 
并 且 返 回 一 个 int 值 来 表示 两 个 单词 之 间 的 距离 。 这 种 分 类 操作 的 代码 如 下 。 


public class LevenshteinDistance { 


public static int calculate (String stringl, String string2) { 
] distances=new 
int[stringl.length()+1] [string2.1length()+1]; 


int[][ 


for (int i=1,; i<=stringl.length();i++) { 
distances[i] [0]=i; 


} 


for (int j=1; j<=string2.length(); j++) { 
distances[0] [j]=j; 


} 


for(int i=1; i<=stringl.length(); i++) { 


ee 
if 


(nt j=13" Ts 


=string2.length(); j++) { 


(stringl.charAt (i-1)==string2.charAt(j-1)) { 


} else { 


} 


distances[i][j]=distances[i-1][j-1]; 


distances[i][j]=minimum(distances[i-1][j], 


distances[i][j-1],distances[i-1][j-1])+1; 


return distances[stringl.length()] [string2.1length()]; 


} 


private static int minimum(int i, int j, int k) { 
return Math.min(i,Math.min(j, k)); 


} 
} 


BestMatchingData 类 只 有 两 个 属性 : 一 个 用 于 存储 单词 列表 的 字符 串 对 象 列表 , 以 及 一 个 名 为 


distance 的 整 型 


属性， 该 属 怕 


UD 


存放 了 这 些 单词 与 输入 字符 串 之 间 的 距离 。 
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5.2.2 ”最 佳 匹 配 算法 : 串 行 版 本 


首先 ,我 们 将 实现 最 佳 匹配 算法 的 串 行 版 本 。 我 们 将 使 用 该 版 本 作为 并 发 版 本 的 起 点 ， 然 后 将 比 
较 两 个 版 本 的 执行 时 间 ， 以 此 来 验证 并 发 处 理 是 否 可 以 帮助 我 们 获得 更 好 的 性 能 。 

我 们 在 下 面 两 个 类 中 实现 了 最 佳 匹 配 算法 的 串 行 版 本 。 
口 BestMatchingSserialcalculation 类 ， 用 于 计算 与 输入 字符 串 最 相似 的 单词 的 列表 。 
口 BestMatchingSerialMain 类 ， 其 中 包含 mnain () 方 法 ， 它 用 于 执行 算法 、 测 量 执行 时 间 并 
目 在 控制 台 显 示 结 果 。 

让 我 们 分 析 一 下 以 上 两 个 类 的 源 代 码 。 

1. BestMatchingSerialcalculation 类 

该 类 只 有 一 个 名 为 getBestMatchingWwords () 的 方法 ， 该 方法 接收 两 个 参数 : 一 个 作为 参照 的 
有 序 字符 串 ， 以 及 含有 字典 中 所 有 单词 的 字符 串 对 象 列 表 。 该 方法 返回 一 个 BestMatchingData 对 
象 ， 其 中 含有 算法 执行 结果 。 


public class BestMatchingSerialCalculation { 


public static BestMatchingData getBestMatchingWords (String 
word, List<String> dictionary) { 
List<String> results=new ArrayList<String>(); 
int minDistance=Integer.MAX_VALUE; 
int distance; 


在 内 部 变量 完成 初始 化 之 后 ， 算 法 处 理 字典 中 的 所 有 单词 ， 计 算 这 些 单词 与 参照 字符 串 之 间 的 
Levenshtein 距离 。 如 果 针 对 一 个 单词 计算 得 到 的 距离 比 实际 最 小 距离 更 小 ,那么 我 们 将 清空 结果 列表 
并 且 将 该 单词 存放 在 列表 中 。 如 果 针 对 一 个 单词 计算 得 到 的 距离 与 实际 最 小 距离 相等 ， 那 么 将 该 单词 
添加 到 结果 列表 中 。 


fOr (SIN BCE LrCtLiondry). 

distance=LevenshteinDistance.calculate (word, str); 
if (distance<minDistance) { 

results.clear (); 

minDistance=distance; 

results.add (str); 
} else if (distance==minDistance) { 

results.add (str); 


} 
} 


最 后 ,创建 BestMatchingData 对 象 来 返回 算法 结果 。 


BestMatchingData result=new BestMatchingData (); 
result.setWords (results); 
result.setDistance (minDistance); 
return result; 
} 
} 


2. BestMachingSerialMain 类 
该 类 是 本 例 的 主 类 。 它 加 载 UKACD 文件 ， 调 用 getBestMatchingWords () 方 法 (该 方法 以 接 
收 到 的 字符 串 作为 参数 )， 然 后 在 控制 台 显示 结果 以 及 算法 执行 时 间 。 可 参看 如 下 代码 。 
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public class BestMatchingSerialMain { 
public static void main(String[] args) { 


Date startTime, endTime; 
List<String> dictionary=WordsLoader.load("data/UK Advanced 
Cryptics Dictionary.txt"); 


System.out .println("Dictionary Size: "+dictionary.size()); 


startTime=new Date(); 
BestMatchingData result= BestMatchingSerialCalculation 
.getBestMatchingWords 

(args[0], dictionary); 
List<String> results=result .getWords () ; 
endTime=new Date(); 
System.out .println("Word: "+args[0]); 
System.out.println("Minimum distance: " +result.getDistance()); 
System.out .println("List of best matching words: " 
+results.size()); 
results.forEach(System.out::println); 
System.out .println("Execution Time: "+(endTime.getTime()- 

startTime.getTime())); 


} 


在 此 ， 我 们 使 用 Java 8 语言 提供 的 一 种 名 叫 方法 引用 (method reference ) 的 新 构造 ， 以 及 用 于 输 
出 结果 的 新 方法 List .forEach()。forEach () 方 法 是 一 种 末端 操作 ， 对 所 有 元 素 会 有 次 生效 应 。 


5.2.3 ”最 佳 匹配 算法 : 第 一 个 并 发 版 本 


我 们 实现 了 两 个 并 发 版 本 的 最 佳 匹 配 算法 。 第 一 个 版 本 基于 callable 接口 , 以 及 在 Abstract- 
ExecutorService 接口 中 定义 的 supbmit () 方 法 。 

我 们 采用 下 面 三 个 类 来 实现 这 一 版 本 的 算法 。 
口 BestMatchingBasicTask 类 : 该 类 执行 那些 实现 callable 接 
任务 。 
口 BestMatchingBasicConcurrentCalculation 类 : 该 类 创建 了 执行 器 和 必要 的 任务 ， 并 
且 将 任务 发 送 给 执行 器 。 
口 BestMatchingConcurrentMain 类 : 该 类 实现 了 main () 方 法 ， 执 行 算法 并 且 在 控制 台 显 

示 结 果 。 

让 我 们 看 看 这 些 类 的 源 代 码 。 

1. BestMatchingBasicTask 类 

正如 前 面 提 到 的 ， 该 类 将 实现 获取 最 佳 匹 配 单 词 列表 的 任务 。 该 任务 将 实现 采用 BestMatchingData 
类 参数 化 的 callable 接口 。 这 意味 着 该 类 将 实现 cal1 () 方 法 ， 而 该 方法 将 返回 一 个 BestMatchingData 
对 象 。 


a| 
装 


且 将 在 执行 器 中 执行 的 
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每 个 任务 处 理 一 部 分 字典 ， 并 日 返回 这 一 部 分 字典 获得 的 结果 。 我 们 用 到 了 如 下 四 个 内 部 属 怕 
口 任务 要 分 析 的 这 一 部 分 字典 的 起 始 位 置 (包含 ) 。 

口 任务 要 分 析 的 这 一 部 分 字典 的 结束 位 置 (不 包含 ) 。 

口 以 字符 串 对 象 列表 形式 表示 的 字典 。 

口 参照 输入 字符 串 。 

其 代码 如 下 。 


public class BestMatchingBasicTask implements Callable 
<BestMatchingData > { 


TT 


private int startIindex; 

private int endIindex; 

private List < String > dictionary; 
private String word; 


public BestMatchingBasicTask (int startIindex, int endIndex, 
List < String > dictionary, String word) { 
this.startIndex = startIindex; 

this.endIindex = endIndex; 

this.dictionary = dictionary; 

this.word = word; 


} 


call () 方 法 处 理 startIindex 和 endIndex 属性 值 之 间 的 所 有 单词 ， 并 且 计 算 这 些 单词 与 输入 
字符 串 之 间 的 Levenshtein 距离 。 该 方法 仅 返 回 与 输入 字符 串 最 接近 的 单词 。 如 果 在 此 过 程 中 它 找到 了 
比 前 一 个 单词 更 加 接近 的 单词 ， 将 清空 结果 列表 并 且 将 新 单词 加 入 到 该 列表 中 。 如 果 找 到 一 个 与 当前 
查找 结果 距离 相同 的 单词 ， 那 么 就 将 该 单词 加 入 到 结果 列表 中 ， 如 下 所 示 。 


@Override 
public BestMatchingData call() throws Exception { 
List<String> results=new ArrayList<String>(); 
int minDistance=Integer.MAX_ VALUE; 
int distance; 
for (int i=startIindex; i<endIindex; i++) { 
distance = LevenshteinDistance.calculate (word,dictionary.get (i)); 
if (distance<minDistance) { 
results.clear (); 
minDistance=distance; 
results.add(dictionary .get (i)); 
} else if (distance==minDistance) { 
results.add(dictionary.get (i)); 


} 
} 


最 后 ， 我 们 创建 一 个 BestMatchingData 对 象 并 且 返 回 该 对 象 ， 该 对 象 中 含有 查找 到 的 单词 列 
以 及 这 些 单词 与 输入 字符 串 之 间 的 距离 。 


BestMatchingData result=new BestMatchingData (); 
result.setWords (results); 

result.setDistance (minDistance); 

return result; 
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基于 Runnable 接口 的 任务 之 间 的 主要 差别 在 于 , 方法 中 最 后 一 行 的 返回 语句 。run () 方 法 并 不 
返回 值 ， 因 此 那些 任务 都 无 法 返回 值 。 而 call () 方 法 可 返回 一 个 对 象 ( 该 对 象 的 类 在 其 实现 语句 
定义 )， 因 而 这 种 类 型 的 任务 可 以 返回 结果 。 

2. BestMatchingBasicConcurrentCalculation 类 

该 类 负责 为 处 理 整 个 词典 创建 必需 的 任务 、 执 行 这 些 任 务 的 执行 器 ,并 且 在 执行 器 中 控制 这 些 任 
务 的 执行 。 

该 类 只 有 一 个 getBestMatchingWords () 方 法 ， 且 该 方法 有 两 个 输入 参数 : 有 完整 单词 列表 的 
字典 和 参照 字符 串 。 该 方法 返回 一 个 含有 算法 执行 结果 的 BestMatchingData 对 象 。 首 先 ， 我 们 创 
建 并 初始 化 该 执行 器 。 我 们 将 机 器 的 核 数 作 为 在 此 使 用 的 最 大 线程 数 。 看 一 看 下 面 这 个 代码 块 。 


public class BestMatchingBasicConcurrentCalculation { 


public static BestMatchingData getBestMatchingWords (String 
word, List<String> dictionary) throws InterruptedException, 


ExecutionException { 


int numCores = Runtime.getRuntime() .availableProcessors(); 


ThreadPoolExecutor executor = (ThreadPoolExecutor) 
Executors.newFixedThreadPool (numCores); 


然后 ,我 们 计算 每 个 任务 要 处 理 的 那 部 分 字典 的 规模 ， 并 且 创建 一 个 Future 对 象 列表 来 存储 这 
些 任务 的 结果 。 当 你 将 一 个 基于 callable 接口 的 任务 发 送 给 执行 器 时 , 将 得 到 Future 接口 的 一 个 
实现 。 你 可 以 使 用 该 对 象 进行 如 下 操作 。 
口 了解 任务 是 否 已 经 执行 。 
口 获取 任务 执行 的 结果 ( cal1 () 方 法 返回 的 对 象 ) 。 
口 撤销 任务 的 执行 。 
其 代码 如 下 : 


int size = dictionary.size(); 
int step = size / numCores; 
int startIindex, endIindex; 

List<Future<BestMatchingData>> results = new ArrayList<>(); 


然后 , 我 们 创建 这 些 任务 , 使 用 submit () 方 法 将 其 发 送 给 执行 器 , 并 且 将 该 方法 返回 的 Future 
对 象 添 加 到 Future 对 象 列表 。submit () 方 法 会 立即 返回 ， 它 并 不 会 一 直 等 待 任务 执行 。 我 们 有 如 


下 代码 。 
for (int i = 0; i < numCores; i++) { 
startIndex = i * step; 
fa. EmCGEes. = 1)"{ 
endIindex = dictionary.size(); 
} else { 
endIindex = (i + 1) * step; 


} 
BestMatchingBasicTask task = new BestMatchingBasicTask (startIindex, 
endIindex, dictionary, word); 


Future<BestMatchingData> future = executor.submit (task); 
results.add (future); 
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我 们 把 任务 发 送 给 执行 器 后 , 可 以 调用 执行 器 的 shutdown () 方 法 来 结束 其 执行 , 并 且 对 Future 
对 象 列 表 执 行 迭 代 操 作 以 获得 每 个 任务 的 执行 结果 。 我 们 使 用 不 带 任何 参数 的 get () 方 法 。 如 果 任 务 
执行 结束 ， 则 该 方法 返回 由 call () 方 法 返回 的 对 象 。 如 果 任 务 尚 未 结束 ， 该 方法 会 通过 当前 线程 将 
调用 线程 置 为 休眠 状态 ， 直 到 任务 执行 结束 并 且 可 获得 结果 为 止 。 

我 们 将 任务 的 结果 组 合成 一 个 结果 列表 , 这 样 就 可 以 仅 返 回 与 参照 字符 串 距离 最 近 的 单词 的 列表 
了 ， 如 下 所 示 : 


executor.shutdown(); 

List<String> words=new ArrayList<String>(); 

int minDistance=Integer.MAX_ VALUE; 

for (Future<BestMatchingData> future: results) { 
BestMatchingData data=future.get (); 

if (data.getDistance()<minDistance) { 

words.clear (); 

minDistance=data.getDistance() 

words.addAll (data.getWords ()); 

这 


’ 


—_ 


else if (data.getDistance()==minDistance) { 
words.addAll (data.getWords\( 


} 
最 后 ， 我 们 创建 并 返回 一 个 BestMatchingData 对 象 ， 其 中 含有 算法 执行 结果 。 


BestMatchingData result=new BestMatchingData (); 
result.setDistance (minDistance); 
result.setWords (words); 

return result; 


BestMatchingConcurrentMain 类 和 前 面 介绍 的 BestMatchingSerialMain 类 
非常 相似 。 唯 一 的 差别 是 所 用 的 类 不 同 (使 用 BestMatchingBasicConcurrent- 

OP Calculation 类 代替 BestMatchingSerialCalculation ), 所 以 此 处 没有 给 出 其 
源码 。 请 注意 ， 当 并 发 任务 工作 于 各 个 独立 的 数据 片 之 上 时 ， 我们 既 没 有 采用 线程 
安全 的 数据 结构 ， 也 没有 使 用 同步 机 制 ， 而 是 当 并 发 任务 执行 完毕 后 以 顺序 方式 来 
合并 最 终结 果 。 


5.2.4 最 佳 匹配 算法 : 第 二 个 并 发 版 本 


我 们 使 用 AbstractExecutorService (在 ThreadPoolExecutorClass 中 实现 ) 的 invokeAll () 
方法 实现 了 最 佳 匹配 算法 的 第 二 个 版 本 。 在 前 一 个 版 本 中 我 们 使 用 了 submit () 方 法 ， 该 方法 接收 一 
个 callable 对 象 作为 参数 , 并 返回 一 个 Future 对 象 。invokeall () 方 法 接收 一 个 callable 对 象 
列表 作为 参数 ， 并 且 返 回 一 个 Future 对 象 列表 。 其 中 第 一 个 Future 对 象 和 第 一 个 callable 对 象 
相关 联 ， 以 此 类 推 。 这 两 个 方法 之 间 还 有 男 一 个 重要 区 别 。 尽 管 supmit () 方 法 可 立即 返回 , 但 是 
invokeA1ll () 方 法 仅 当 所 有 callable 任务 都 终止 执行 时 才 返 回 。 这 意味 着 如 果 你 调用 了 isDone () 
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uture 接口 


方法 ,那么 所 有 返回 的 Future 对 象 都 会 返回 true。 
要 实现 该 版 本 的 程序 ， 我 们 使 用 了 在 前 画 


例子 中 实现 的 BestMatchingBasicTask 类 ,并 日 


[实现 了 


BestMatchingAdvancedConcurrentCalculation 类 , 该 类 与 BestMatchingBasicConcurrentTask 


类 的 区 别 在 于 任务 的 创建 和 对 结 


我 们 要 执行 的 任务 。 
for (int i = 0; i < numCores; i++) { 
startIndex = i * step; 
if (i == numCores - 1) { 
endIndex = dictionary.size(); 
} else { 
endIindex = (i + 1) * step; 


} 
BestMatchingBasicTask task 


tasks.add (task); 
} 


为 了 处 理 


和 


results = executor.invokeAll (tasks); 

executor.shutdown(); 

List<String> words new ArrayList<String> 

int minDistance Integer.MAX_VALUE; 

for (Future<BestMatchingData> future : 

BestMatchingData data future.get (); 

if (data.getDistance() < minDistance) 

words.clear (); 

minDistance data.getDistance(); 

words.addAll (data.getWords ()); 

else if (data.getDistance() 

words.addAll (data.getWords!( 
} 

} 

BestMatchingData result new BestMatchingDa 

result.setDistance (minDistance); 

result.setWords (words); 

return result; 


} 


{ 


} EE 
js 


的 处 理 上 。 在 任务 创建 方面 ， 现 在 我 们 创建 一 个 列表 并 且 


results) 


minDistance) 


用 它 存放 


new BestMatchingBasicTask (startIndex, 
endIndex, 


dictionary, word); 


吉 果 ， 我 们 调用 invokeall () 方 法 并 且 之 后 遍历 返回 的 future 对 象 列表 。 


(2 


{ 


{ 


tal(); 


为 执行 该 版 本 的 代码 ， 我 们 还 实现 了 BestMatchingConcurrentAdvancedMain 类 。 该 类 的 源 
码 与 前 一 个 例子 中 ( BestMatchingConcurrentMain ) 的 代码 非常 类 似 ， 此 处 不 再 给 出 。 


5.2.5 单词 存在 算法 : 串 行 版 本 
本 例 中 , 我 们 实现 了 另 一 个 操作 来 检查 一 个 字符 


串 是 否 


在 我 们 的 单词 列表 中 。 为 检查 一 个 单词 是 


否 存在 ,我 们 要 再 次 用 到 Levenshtein 距离 。 我 们 认为 ， 如 绝 
中 的 某 一 单词 之 间 的 距离 为 0。 使 月 
捷 ， 或 者 也 可 将 输入 单词 读 和 到 一 个 Hashset 


并 使 


列表 中 存在 某 个 单词 ,那么 该 单词 与 列表 


日 equals () 方 法 或 者 equalsIgnoreCase() 方 法 做 对 比 会 更 加 快 
用 contains () 方 法 (这 上 比 我 们 的 版 本 更 加 高 
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效 )， 但 是 这 里 假定 我 们 的 版 本 更 加 适合 本 书 的 主旨 。 

正如 前 面 的 例子 ， 首 先 ， 我 们 实现 该 操作 的 串 行 版 本 ， 将 其 作为 基础 来 实现 并 发 版 本 ， 然 后 再 对 
比 这 两 个 版 本 的 执行 时 间 。 

实现 串 行 版 程序 时 ， 要 用 到 如 下 两 个 类 。 
口 ExistSerialCalculation 类 : 该 类 实现 existword() 方 法 来 比较 输入 字符 串 和 字典 中 的 
所 有 单词 ， 直 到 找到 该 单词 为 止 。 
口 ExistSerialMain 类 : 该 类 启动 本 例 并 且 度 量 执行 时 间 。 

让 我 们 分 析 一 下 这 两 个 类 的 源 代 码 。 

1. EBxistSerialcalculation 类 

该 类 只 有 一 个 方法 ， 就 是 existword() 方 法 。 该 方法 接收 两 个 参数 : 我 们 要 查找 的 单词 与 完整 
的 单词 列表 。 该 方法 查找 整个 列表 , 计算 输入 单词 和 列表 中 每 个 单词 之 间 的 Levenshtein 距离 ， 直 到 找 
到 满足 条 件 的 单词 ( 距离 为 0) 为 止 ， 这 种 情况 下 该 方法 返回 true 值 ; 或 者 当 结 束 对 单词 列表 的 查 
找 时 没有 找到 单词 ， 此 时 该 方法 返回 false 值 。 参 见 如 下 代码 块 : 


public class ExistSerialCalculation { 


public static boolean existWord(String word, List<String> 
dictionary) { 
f6E "(SI LCt LIONSrY 站 
if (LevenshteinDistance.calculate(word, str) == 0) { 
return true; 
} 
上 


return false; 
} 
} 


2. ExistSerialMain 类 

该 类 实现 了 main () 方 法 ， 并 在 其 中 调用 了 existword() 方 法 。 该 类 将 main () 方 法 的 第 一 个 参 
数 作为 我 们 要 查找 的 单词 ， 并 且 调 用 existwora() 方 法 进行 查找 。 该 类 还 度量 其 执行 时 间 并 在 控制 
台 显 示 结 果 。 我 们 给 出 下 述 代码 。 


public class ExistSerialMain { 


public static void main(String[] args) { 

Date startTime, endTime; 

List<String> dictionary=WordsLoader.load("data/UK Advanced 
Cryptics Dictionary.txt"); 


System.out .println("Dictionary Size: "+dictionary.size()); 

startTime=new Date(); 

boolean result=ExistSerialCalculation.existWord(args[0], 
dictionary); 


endTime=new Date(); 


System.out .println("Word: "+args{[0]); 
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System.out .println("Exists: "+result); 
System.out .brintln("Execution Time: "+(endTime.getTime()- 
startTime.getTime())); 
} 
} 


5.2.6 单词 存在 算法 : 并 行 版 本 


要 实现 这 一 操作 的 并 发 版 本 ， 我 们 要 考虑 其 最 重要 的 特征 ， 不 需要 处 理 整个 单词 列表 。 找 到 符合 
条 件 的 单词 时 ， 就 可 以 完成 该 列表 的 处 理 并 且 返 回 结果 。 这 一 操作 并 不 处 理 整个 输入 数据 ， 而 是 满足 
某 个 条 件 时 就 会 停止 ， 这 也 叫 作 短 路 short-circuit ) 操作 。 

AbstractExecutorService 接口 定义 了 一 个 可 适应 上 述 想法 的 操作 (在 ThreadqPool- 
Executor 类 中 实现 )， 即 invokeany () 方 法 。 该 方法 接收 一 个 callable 任务 列表 作为 参数 ， 并 且 
将 其 发 送 给 执行 器 ,然后 返回 第 一 个 完成 执行 且 没 有 抛 出 异常 的 任务 作为 结果 。 如 果 所 有 任务 都 抛 出 
了 异常 ， 则 该 方法 抛 出 一 个 ExecutionException 异常 。 

正如 前 面 的 例子 所 示 ， 为 实现 该 版 本 的 算法 我 们 还 实现 了 如 下 这 些 类 。 

口 ExistBasicTask 类 实现 了 我 们 将 要 在 执行 器 中 执行 的 任务 。 

口 ExistBasicConcurrentCalculation 类 创建 了 执行 器 和 任务 ， 并 且 将 任务 发 送 给 执行 器 。 
口 ExistBasicConcurrentMain 类 用 于 执行 示例 并 且 度 量 其 运行 时 间 。 
1. ExistBasicTasks 类 

该 类 实现 了 搜索 单词 的 任务 。 它 实现 了 以 布尔 类 参数 化 的 callable 接口 。 如 果 有 任务 找到 了 单 
则 其 cal1 () 方 法 将 返回 true 值 。 该 类 使 用 了 如 下 四 个 内 部 属性 。 

口 完整 的 单词 列表 。 

口 任务 将 在 列表 中 处 理 的 第 一 个 单词 (包括 ) 。 

口 任务 将 在 列表 中 人 处理 的 最 后 一 个 单词 (不 包括 ) 。 

口 任务 要 查找 的 单词 。 

我 们 有 如 下 代码 。 


public class ExistBasicTask implements Callable<Boolean> { 


词 


private int startIindex; 

private int endIindex; 

private List<String> dictionary; 
private String word; 


public ExistBasicTask (int startIindex, int endIindex, 
List<String> dictionary, String word) { 
this.startIindex=startIndex; 
this.endIindex=endIindex; 
this.dictionary=dictionary; 
this.word=word; 


} 
call 方法 将 遍历 分 配给 该 任务 的 那 部 分 列表 ， 计 算 输入 单词 和 这 部 分 列表 中 各 单词 之 间 的 
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Levenshtein 距离 。 如 果 找 到 了 该 单词 ,那么 它 将 返回 true 值 。 
如 果 任 务 处 理 完 分 配给 它 的 所 有 单词 之 后 并 没有 发 现 要 找 的 单词 , 那么 它 将 抛 出 一 个 异常 以 适应 


invokeaAny () 方 法 的 行为 。 在 这 种 情况 下 , 如 果 该 任务 返 


值 而 无 须 等 待 剩 下 的 任务 。 也 许 另 一 个 任务 会 找到 该 单词 。 


代码 如 下 所 示 。 


QOverride 


public Boolean call() throws Exception { 
for (int i=startIindex; i<endIindex; i++) { 
if (LevenshteinDistance.calculate(word, dictionary.get (i))==0) { 


return true; 


} 
if (Thread.interrupted()) { 
return false; 


} 


throw new NoSuchElementException("The word "+word+" 
doesn't exists."); 


} 


2. ExistBasicConcurrentCalculation 类 


该 类 将 执行 在 完整 单词 列表 中 搜索 输入 单词 的 过 程 ， 创 建 并 执行 必要 的 他 
个 名 为 existwWora() 的 方法 。 该 方法 接收 两 个 参数 、 输 入 字符 有 


布尔 值 ， 以 表明 单词 是 否 存 在 。 


首先 , 创建 执行 器 来 执行 这 些 任务 。 我们 使 月 


Executor 类 并 且 创 到 


类 ， 该 类 的 最 大 线程 数 由 计算 机 的 可 用 硬件 线程 数 决定 ， 如 下 所 示 : 


public class ExistBasicConcurrentCalculation { 


BE 一 个 ThreagdPoo1] 


public static boolean existWord(String word, List<String> dictionary) 
throws InterruptedException, ExecutionExceptiont{ 

int numCores = Runtime.getRuntime() .availableProcessors(); 
ThreadPoolExecutor executor = (ThreadPoolExecutor) 
Executors.newFixedThreadPool (numCores); 


然后 ， 创 建 与 执行 器 中 运行 的 线程 数目 相同 的 任务 。 每 个 任务 都 处 理 单词 列表 中 同等 的 一 部 分 。 


我 们 创建 这 些 任务 并 且 将 其 存放 在 一 个 列表 中 。 


int size = dictionary.size(); 


int step = size / numCores; 
int startIindex, endIindex; 


List<ExistBasicTask> tasks = new ArrayList<>(); 


for (int i = 0; i < numCores; i++) 
startIindex = i * step; 


if (i == numCores - 1) { 
endIindex = dictionary.size(); 
} else { 
endIindex = (i + 1) * step; 


{ 


回 了 false 值 , invokeaAny () 方 法 将 返回 false 


F 务 。 该 类 仅仅 实现 了 一 
和 完整 的 单词 列表 ， 并 且 返 回 一 人 


Executor 
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} 
ExistBasicTask task = new ExistBasicTask(startIindex, endIindex, 
dictionary, word); 
tasks.add (task); 
} 


然后 ,使 用 invokeany () 方 法 在 执行 器 中 执行 这 些 任务 。 如 果 该 方法 返回 一 个 布尔 值 ， 则 单词 
存在 ,就 返回 该 值 。 如 果 该 方法 抛 出 异常 ， 则 单词 不 存在 ,我 们 就 在 控制 台 打印 异常 并 且 返 回 false 
值 。 这 两 种 情况 下 ， 我 们 都 调用 执行 器 的 shut gown () 方 法 来 结束 其 执行 ， 如 下 所 示 : 


try { 
Boolean result=executor.invokeAny (tasks); 
return result; 
catch (ExecutionException e) { 
if (e.getCause() instanceof NoSuchElementException) 
return false; 
throw e; 
} finally { 
executor.shutdown(); 
} 
} 
} 


除了 使 用 shutdown () 方 法 ， 我 们 还 可 以 使 用 shutdownNow () 方 法 。 这 两 个 方法 之 间 的 主要 区 
别 在 于 ,shutdown () 方 法 在 终止 执行 器 执行 之 前 会 执行 所 有 待 执 行 任务 , 而 shutdownNow () 方 法 则 
不 再 执行 待 执行 任务 。 

3. ExistBasicConcurrentMain 类 

该 类 实现 了 本 例 中 的 main () 方 法 。 它 和 ExistserialMain 类 相当 ， 唯 一 的 区 别 在 于 它 使 用 了 
ExistBasicCconcurrentCalculation 类 来 替代 Existserialcalculation， 因 此 这 里 不 再 介绍 
其 源 代码 。 


5.2.7 对比 解 决 方案 


让 我 们 比较 一 下 在 本 节 实 现 的 两 个 操作 的 不 同 解决 方案 ( 串 行 和 并 行 )。 我 们 采用 JMH 框架 ( 请 

查看 名 为 “Code Tools: jmh” 的 文章 ) 执行 这 些 示 例 ， 该 框架 允许 你 用 Java 实现 微型 基准 测试 。 使 用 

一 个 面向 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 用 currentTimeMillis() 方 法 或 者 

nanoTime () 方 法 来 度量 时 间 。 我 们 在 两 种 不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 

口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 

器 有 两 个 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 我 们 就 有 四 个 并 行 线程 。 

口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 
有 四 个 核 。 

1. 最 佳 匹 配 算法 

在 本 例 中 ， 我 们 实现 了 该 算法 的 三 个 版 本 。 

口 串 行 版 本 。 


A 


Wi 
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口 并 行 版 本 ， 一 次 发 送 一 个 任务 。 
口 并 行 版 本 ,使 用 invokeall() 方 法 。 
为 了 测试 该 算法 ， 我 们 用 到 了 单词 列表 中 不 存在 的 三 个 字符 串 。 


DStittero 


口 Abicus。 

ons 

下 面 是 最 佳 匹配 算法 为 上 述 每 个 单词 返回 的 单词 列表 。 

DD stitter: sitter、 skitter、 slitter、 spitter、 stilter、 stinter、 stotter.、 
stutter 和 titter。 


口 Abicus: abacus 和 amicus。 


口 Lonx: lanx、 lone、long、lox 和 lynx。 


平均 执行 时 间 及 其 标准 仿 差 以 毫秒 为 单位 ， 如 下 表 所 示 。 


nS, a Intel 架构 AMD 架构 
法 Stitter Abicus Lonx Stitter Abicus Lonx 
串 行 版 414.56 376.34 296.81 708.98 633.61 467.03 
并 行 版 submit () 方 法 229.56 217.76 173.89 361.97 299.26 233.22 
并 行 版 invokeal1l () 方 法 257.31 225.82 171.98 333.93 324.08 250.06 
我 们 可 以 得 出 下 面 的 结论 。 


口 在 两 种 架构 上 ， 该 算法 的 并 行 版 本 的 性 能 都 要 比 串 行 版 本 好 。 
口 该 算法 的 两 个 并 行 版 本 取得 了 相似 的 结果 。 我 们 可 以 使 用 加 速 比 来 比较 在 查找 单词 Lonx 时 并 
发 版 本 和 串 行 版 本 的 执行 速度 ， 由 此 来 观察 并 发 处 理 如 何 提升 算法 的 性 能 。 
1 
2 
EA Za 二 > 296.81 es 
0 le TR 


S 1.72 


2. 存在 算法 

在 本 例 中 ,我们 实现 了 该 算法 的 两 个 版 本 。 

口 串 行 版 本 。 

口 并 行 版 本 ， 使 用 invokeAny () 方 法 。 

为 了 测试 该 算法 ， 我 们 用 到 了 一 些 字 符 串 。 

口 单词 列表 中 不 存在 的 字符 串 xyzt。 

口 在 接近 单词 列表 未 端 处 的 字符 串 stutter。 

口 在 接近 单词 列表 起 始 处 的 字符 串 abacus。 

口 在 单词 列表 刚刚 后 一 半 位 置 处 的 字符 串 1ynx。 
以 毫秒 为 单位 的 平均 执行 时 间 如 下 表 所 示 。 
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ee Intel 架构 AMD 架构 
异 > 
单词 执行 时 间 (毫秒 ) 单词 执行 时 间 (毫秒 ) 
abacus 69.79 abacus 94.59 
品行 版 lynx 148.46 lynx 292.86 
stutter 336.61 stutter 592.102 
XyZt 280.93 XyZt 452.53 
abacus 73.28 abacus 76.27 
并 行 版 lynx 100.51 lynx 110.51 
stutter 154.63 stutter 186.28 
xyzt 178.33 Xxy2t 270.37 
我 们 可 以 得 出 下 面 的 结论 。 
口 通常 ， 该 算法 的 并 发 版 本 可 比 串 行 版 本 提供 更 好 的 性 能 。 
口 单词 在 列表 中 的 位 置 是 一 个 关键 因素 。 对 于 单词 abacus 来 说 ， 它 位 于 单词 列表 的 起 始 位 
置 ， 这 两 个 版 本 算法 的 执行 时 间 相 似 ; 但 是 对 于 单词 stutter 来 说 ， 二 者 的 差别 就 很 大 了 。 


使 用 加 速 比 来 比较 并 发 版 和 串 行 版 查找 单词 1ynx 的 速度 ， 可 得 到 如 下 结果 。 


292.86 
Sump= 一 sa = = 2.65 
人 人 1 10.51 
.ed 
ee 100.51 
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5.3 ”第 二 个 例子 : 为 文档 集 创建 倒 排 索 引 


在 信息 检索 领域 ， 倒 排 索引 是 一 种 常见 的 数据 结构 ， 用 于 加 快 在 文档 集中 查找 文本 的 速度 。 它 存 


储 了 文档 集 的 所 有 单词 ， 以 及 一 个 包含 这 些 单 词 的 文档 列表 。 
为 构建 该 索引 , 我 们 要 解析 文档 集中 的 所 有 文档 , 并 


下 


且 以 增 量 方式 构建 索引 。 对 于 每 个 文档 来 说 ， 


我 们 抽取 该 文档 中 的 重要 单词 ( 删除 最 常见 单词 ， 也 叫 作 停止 词 ， 或 者 也 可 能 应 用 词 干 提取 算法 )， 


并 且 之 后 将 那些 单词 加 入 到 索引 中 。 如 及 


与 该 单词 相关 联 的 文档 列表 中 。 如 果 文 档 


一 个 文档 中 的 某 个 单词 存在 于 索引 之 中 ， 就 将 该 文档 加 入 到 
的 某 个 单词 并 不 存在 于 索引 之 中 , 那么 将 该 单词 加 入 到 索 


引 的 单词 列表 中 ， 并 且 
单词 的 “术语 频次 ”， 
当 你 搜索 文档 集合 中 的 


将 该 文档 与 该 单词 关联 起 来 。 可 以 为 这 种 关联 关系 加 入 一 些 参数 ， 例 如 文档 中 
以 便 提 供 更 多 的 信息 。 
个 单词 或 者 单词 列表 时 ,使 用 倒 排 索引 来 获取 与 每 个 单词 相关 的 文档 列 


表 ， 并 创建 含有 搜索 结果 的 一 个 唯一 列表 。 
本 节 , 你 将 学 会 如 何 使 用 Java 并 发 程序 来 为 一 个 文档 集 构建 一 个 倒 排 索引 文件 。 至 于 文档 集 , 我 


们 选用 维基 百科 ( Wikipedia ) 上 有 关 电 影 信息 的 页 面 来 构建 一 个 含有 100 673 个 文档 的 集合 。 我 们 将 
每 一 个 维基 百科 页 面 转换 成 一 个 文本 文件 ， 你 可 以 随 本 书 配套 源码 一 起 下 载 该 文档 集 。 


为 了 构建 倒 排 索引 ， 
可 能 简单 ， 


我 们 不 会 删除 任何 单词 ， 也 不 会 使 用 任何 词 干 提取 算法 。 我 们 希望 使 算法 尽 
以 便 将 精力 集中 于 并 发 程序 上 。 


5.3 第 二 个 例子 : 为 文档 集 创建 倒 排 索引 103 


这 里 提 到 的 原理 同样 也 可 以 用 于 获取 有 关 文 档 集合 的 其 他 信息 ,例如 每 个 文档 的 向 量 表示 可 用 作 
聚 类 算法 的 输入 ， 你 将 在 第 7 章 中 学 习 这 些 内 容 。 
和 其 他 示例 一 样 , 你 将 实现 这 些 操作 的 串 行 版 和 并 发 版 , 以 验证 在 该 例 中 并 发 处 理 对 我 们 的 帮助 。 


5.3.1 公共 类 


串 行 版 和 并 发 版 在 实现 将 文档 集合 加 载 到 Java 对 象 时 要 用 到 一 些 共 同 的 类 。 我 们 用 到 了 下 面 两 个 类 。 
口 Document 类 ， 用 于 存放 文档 中 所 含 单词 的 列表 。 
口 DocumentParse 类 ， 用 于 将 一 个 以 文件 存储 的 文档 转换 成 一 个 文档 对 象 。 
让 我 们 分 析 一 下 这 两 个 类 的 源 代 码 。 

1. Document 类 


Document 类 非常 简单 ， 它 只 有 两 个 属性 以 及 用 于 获取 和 设置 属性 值 的 方法 。 这 两 个 属性 如 下 。 


口 文件 名 ， 这 是 一 个 字符 串 。 5 
口 词汇 表 (也 就 是 在 文档 中 用 到 的 单词 的 列表 ) ， 这 是 一 个 HashMap。 其 键 为 单词 ， 其 值 为 该 
单词 在 文档 中 出 现 的 次 数 。 

2. DocumentParser 类 

正如 前 面 提 到 的 , 该 类 将 以 文件 存储 的 文档 转换 为 以 Document 对 象 表示 的 文档 。 它 将 单词 划分 
为 三 个 方法 。 第 一 个 是 parse() 方 法 , 它 接收 文件 路 径 作 为 参数 , 并且 返回 一 个 带 有 该 文档 词汇 表 的 
HashMap。 该 方法 使 用 Files 类 的 reagdAllLines () 方 法 逐 行 读 取 文 件 , 并 使 用 parseLine () 方 法 
将 每 一 行 转换 成 一 个 单词 列表 ， 并 且 将 其 添加 到 词汇 表 中 ， 如 下 所 示 。 


public class DocumentParser { 


public Map<String, Integer> parsel(String route) { 
Map<String, Integer> ret=new HashMap<String,Integer>(); 
Path file=Paths.get (route); 
try 
List<String> lines = Files.readAllLines (file); 
for (String line : lines) { 
parseLine (line,ret); 
j 
} catch (IOException e) { 
e.printStackTrace (); 
} 


return ret; 


} 
parseLine() 方 法 处 理 当 前 行 并 抽取 其 中 的 单词 。 为 使 本 例 更 加 简单 ,我 们 将 单词 看 作 一 个 字母 
字符 序列 。 我 们 使 用 Pattern 类 来 抽取 单词 ,使 用 Normalizer 类 将 单词 转换 成 小 写 形 式 ， 并 且 删 
除 元 音 的 重音 符号 ， 如 下 所 示 : 


private static final Pattern PATTERN = Pattern.compile 
("\\P{IsAlphabetic}+"); 


private void parseLine(String line, Map<String, Integer> ret) { 
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for(String word: PATTERN.split(line)) { 
if(!word.isEmpty()) 


ret.merge (Normalizer.normalize (word, Normalizer.Form.NFKD) 
.toLowerCase(), 1, (a, b) -> a+b); 


5.3.2 ” 串 行 版 本 


本 例 的 串 行 版 本 在 SerialIndexing 类 中 实现 。 该 类 含有 main() 方 法 ,可 以 读 取 所 有 文档 、 获 
取 其 词汇 表 ， 并 且 以 增 量 方式 构建 倒 排 索引 。 
首先 ， 我 们 初始 化 必要 的 变量 。 文 档 集 存放 在 目录 aata 中 ， 因 此 我 们 用 一 个 File 对 象 数组 来 
存储 所 有 的 文档 。 我 们 还 初始 化 了 ijnvertedIndex 对 象 。 在 此 用 到 了 一 个 HashMap, 它 的 键 为 单词 ， 
而 它 的 值 是 一 个 字符 串 对 象 列 表 ， 这 些 字 符 串 表示 的 是 含有 该 单词 的 文件 的 名 称 ， 如 下 所 示 : 


public class SerialIndexing { 


public static void main(String[] args) { 


Date start, end; 

File source = new File("data"); 

File[] files = source.listrFiles(); 
Map<String, List<String>> invertedIndex=new 


HashMap<String,List<String>> (); 


然后 ， 我 们 使 用 DocumentParse 类 来 解析 所 有 文档 ， 并 且 使 用 updateInvertedIngdex() 方 法 将 
从 各 个 文档 获取 的 词汇 表 添 加 到 倒 排 索引 中 。 我 们 还 测量 了 所 有 处 理 过 程 的 执行 时 间 ， 代 码 如 下 所 示 : 


start=new Date(); 
for (File file : files) { 


DocumentParser parser = new DocumentParser(); 


if (file.getName() .endsWith(".txt")) { 


Map<String, Integer> voc = parser.parse (file.getAbsolutePath()); 
updateInvertedIndex(voc,invertedIindex, file.getName()); 


} 
} 


end=new Date(); 
最 后 ， 我 们 在 控制 台中 显示 执行 结果 。 


System.out .println("Execution Time: "+(end.getTime()-— 
start.getTime())); 
System.out .println("invertedIindex: "+invertedIindex.size()); 


} 


updateInvertedIndex() 方 法 将 一 个 文档 的 词汇 表 添 加 到 倒 排 索引 结构 中 。 它 处 理 所 有 构成 词 
汇 表 的 单词 。 如 果 单 词 已 经 存在 于 倒 排 索 引 之 中 ,我们 将 文档 名 称 添 加 到 与 该 单词 相关 联 的 文档 列表 


之 中 。 如 果 单 词 并 不 存在 于 倒 排 索引 之 中 ， 就 将 单词 加 入 倒 排 索引 并 且 将 文档 与 该 单词 关联 起 来 ， 如 
下 所 示 : 
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Private static void updateInvertedIndex (Map<String, Integer> voc, 
Map<String, List<String>> invertedIndex, String fileName) { 
for (String word : voc.keySet()) { 
if (word.length() >= 3) { 
invertedIndex.computeIfAbsent (word, k -> new 
ArrayList<>()).add(fileName); 
} 
} 
} 


5.3.3 ”第 一 个 并 发 版 本 : 每 个 文档 一 个 任务 


现在 ， 是 实现 并 发 版 文本 索引 算法 的 时 候 了 。 显 然 ， 我 们 可 以 并 行 化 每 个 文档 的 处 理 。 其 中 包括 
从 文件 读 取 文 档 和 逐 行 处 理 以 获取 文档 词汇 表 。 各 任务 可 返回 词汇 表 作为 结果 ， 因 此 我 们 可 以 基于 
callable 接口 来 实现 任务 。 

在 前 面 的 示例 中 ， 我 们 用 了 三 个 方法 来 将 callable 任务 发 送 给 执行 器 。 
DD submit () 
口 invokeAll () 


口 invokeaAny () 

我 们 要 处 理 所 有 的 文档 ， 因 此 必须 放弃 invokeany () 方 法 。 可 其 他 两 个 方法 又 很 不 方便 。 如 果 
我 们 使 用 submit () 方 法 ， 就 必须 确定 在 何 时 处 理 任务 的 结果 。 如 果 为 每 个 文档 都 发 送 一 个 任务 ， 就 
可 以 以 如 下 方式 处 理 结果 。 
口 在 发 送 每 个 任务 后 ， 显 然 这 是 不 现实 的 。 

口 在 所 有 任务 完成 后 ， 这 样 我 们 就 需要 存储 大 量 Future 对 象 。 

口 在 发 送 一 组 任务 后 ， 我 们 需要 编写 代码 来 同步 两 个 操作 。 

这 些 方法 都 有 一 个 问题 : 我 们 以 顺序 方式 来 处 理 这 些 任务 的 结果 。 如 果 使 用 invokeaAl1l () 方 法 ， 
所 处 的 情形 就 与 第 二 点 相似 ， 我 们 必须 等 所 有 任务 都 结束 。 
一 个 可 行 的 供 选 方案 是 创建 其 他 一 些 任务 来 处 理 与 每 个 任务 相关 的 Future 对 象 ， 而 Java 并 发 
API 提供 了 一 种 很 好 的 解决 方案 ,采用 completionService 接口 及 其 实现 ( 即 Executor- 
CompletionService 类 ) 来 实现 这 一 解决 方案 。 

CompletionService 对 象 带 有 一 个 执行 器 ， 它 允许 你 将 任务 生成 和 那些 任务 结果 的 使 用 分 离开 
来 ,你 可 以 使 用 submit () 方 法 向 执行 器 发 送 任务 ,并 在 这 些 任 务 执行 完毕 后 使 用 pol1 () 或 者 take () 
方法 来 获取 其 结果 。 因 此 ， 就 我 们 的 解决 方案 而 言 ， 将 实现 下 述 要 素 。 

口 一 个 用 于 执行 任务 的 completionService 对 象 。 

口 为 每 个 文档 分 配 一 个 任务 以 解析 文档 并 且 生 成 其 词汇 表 ， 而 该 任务 将 由 CompletionService 
对 象 来 执行 。 这 些 任 务 都 在 IndexingTask 类 中 实现 。 

口 创建 两 个 线程 来 处 理 任 务 结果 并 且 构造 倒 排 索引 。 这 些 线程 都 在 InvertedIndexTask 类 中 
实现 。 

口 一 个 用 于 创建 和 执行 所 有 要 素 的 main () 方 法 。 该 方法 在 concurrentIndexingMain 类 中 实现 。 
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让 我 们 来 分 析 一 下 这 些 类 的 源 代码 。 
1. IndexingTask 类 
该 类 实现 的 任务 是 解析 一 个 文档 来 获取 其 词汇 表 。 该 类 实现 了 用 Document 类 参数 化 的 callable 
接口 。 它 有 一 个 存储 File 对 象 的 内 部 属性 ， 而 该 File 对 象 代 表 了 它 要 解析 的 文档 。 请 看 下 面 的 代码 : 
public class IndexingTask implements Callable<Document> { 
private File file; 
public IndexingTask (File file) { 


this.file=file; 
} 


在 call() 方 法 中 ， 直接 使 用 了 DocumentParser 类 的 Parse 人 () 方 法 来 解析 文档 ， 获 得 词汇 表 ， 
F 且 根据 获得 的 数据 创建 和 返回 Document 对 象 。 
@Override 


public Document call() throws Exception { 
DocumentParser parser = new DocumentParser (); 


尘 


Map<String, Integer> voc = parser.parse(file.getAbsolutePath()): 


Document document=new Document (); 

document .setFileName (file.getName()); 

document .setVoc (voc); 

return document; 

} 
} 
2. InvertedIndexTask 类 
该 类 实现 的 任务 是 获取 由 IndexingTask 对 象 生成 的 Document 对 象 ， 并 且 创 建 倒 排 索 引 。 该 
任务 将 作为 Thread 对 象 来 执行 〈 我 们 在 本 例 中 没有 使 用 执行 器 )， 因 此 它 是 基于 Runnable 接口 的 。 

InvertedIndexTask 类 用 到 了 下 述 三 个 内 部 属性 。 

口 由 Document 类 参数 化 的 CompletionService 对 象 ， 用 于 访问 由 IndexingTask 对 象 返 回 

的 对 象 。 

口 用 于 存储 倒 排 索引 的 concurrentHashMap ， 其 键 为 单词 ， 而 值 为 一 个 存放 文件 名 字符 串 的 
ConcurrentLinkedDeque。 在 本 例 中 ， 我 们 要 使 用 并 发 数据 结构 ， 而 在 串 行 版 本 中 使 用 的 
数据 结构 是 没有 同步 机 制 的 。 

口 一 个 用 于 表明 任务 能 够 完成 其 工作 的 布尔 值 。 

相关 代码 如 下 所 示 : 


public class InvertedIndexTask implements Runnable { 


eh 


private CompletionService<Document> completionService; 
private ConcurrentHashMap<String, 
ConcurrentLinkedDeque<String>> invertedIndex; 
public InvertedIindexTask (CompletionService<Document> 
completionService, ConcurrentHashMap<String, 
ConcurrentLinkedDeque<String>> invertedIindex) { 
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this.completionService = completionService; 
this.invertedIindex = invertedIndex; 


} 


run () 方 法 使 用 来 自 completionservice 类 的 take() 方 法 获取 与 某 一 任务 相关 联 的 Future 
对 象 。 我 们 实现 了 一 个 循环 ， 在 线程 中 断 之 前 该 循环 将 一 直 运 行 。 当 该 线程 中 断 之 后 ， 它 会 再 次 使 用 
pol1l () 方 法 处 理 所 有 待 处理 的 Future 对 象 ,我 们 使 用 upaateInvertedIndex() 方 法 以 及 take() 
方法 返回 的 对 象 来 更 新 倒 排 索 引 ， 方 法 如 下 所 示 : 


public void run() { 
try { 
while (!Thread.interrupted()) { 
try { 
Document document = completionService.take() .get(); 
updateInvertedIindex(document .getVoc(), invertedIindex, 


document .getFileName ()); 
} catch (InterruptedException e) { 
break; 
} 
} 
while (true) { 
Future<Document> future = completionService.poll(); 


if (future == null) 
break; 
Document document = future.get(); 
updateInvertedIindex(document .getVoc(), invertedIindex, 


document .getFileName ()); 
} 
} catch (InterruptedException | ExecutionException e) { 
e.printSstackTrace(); 
} 
} 


最 后 ，updateInvertedIndex 方法 将 从 文档 获得 的 词汇 表 、 倒 排 索 引 和 文件 名 作为 参数 处 理 。 
该 方法 处 理 词汇 表 的 所 有 单词 。 如 果 单 词 没有 在 索引 中 出 现 ， 我 们 使 用 computeIfAbsent () 方 法 将 


其 添加 到 ijnvertedIndex 中 。 


private void updateInvertedIndex (Map<String, Integer> voc, 
ConcurrentHashMap<String, ConcurrentLinkedDeque<String>> 
invertedIndex, String fileName) { 
for (String word : voc.keySet()) { 
if (word.length() >= 3) { 
invertedIndex.computeIfAbsent (word, k -> new 
ConcurrentLinkedDeque<>()).add(fileName); 


} 


3. concurrentIndexing 类 
这 是 本 例 的 主 类 。 该 类 创建 并 启动 了 所 有 组 件 ， 等 待 执行 过 程 结束 ， 并 且 在 控制 台 输 出 最 终 执行 
时 间 。 


小 


和 
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首先 ， 它 要 创建 并 初始 化 执行 过 程 中 所 需 的 所 有 变量 。 

口 运行 InvertedTask 任务 的 执行 器 。 和 前 面 的 例子 一 样 ， 我 们 使 用 机 器 的 核心 数 作为 执行 
中 的 最 大 工作 线程 数 。 不 过 在 本 例 中 ， 我 们 预 留 了 一 个 核 来 执行 独立 线程 。 
口 用 于 运行 任务 的 completionservice 对 象 。 我 们 使 用 此 前 创建 的 执行 器 来 初始 化 该 对 象 。 
口 用 于 存储 倒 排 索引 的 ConcurrentHashMap。 

口 一 个 含有 所 有 待 处 理 文档 的 File 对 象 数组 。 

相关 方法 如 下 所 示 : 


public class ConcurrentIindexing { 


public static void main(String[] args) { 


int numCores=Runtime.getRuntime() .availableProcessors(); 
ThreadPoolExecutor executor= (ThreadPoolExecutor) 
Executors.newFixedThreadPool (Math.max (numCores-1, 1)); 
ExecutorCompletionService<Document> completionService=new 
ExecutorCompletionService<> (executor); 
ConcurrentHashMap<String, ConcurrentLinkedDeque<String>> 
invertedIndex=new ConcurrentHashMap 
<String,ConcurrentLinkedDeque<String>> (); 


Date start, end; 


File source = new File("data"); 
File[] files = source.listrFiles(); 


然后 ,处 理 数组 中 的 所 有 文件 ,为 每 个 文件 创建 一 个 InvertedTask 对 象 , 并 且 使 用 supmit () 
方法 将 其 发 送 给 completionservice 类 。 我 们 已 经 介绍 了 一 种 避免 执行 器 过 载 的 方法 。 我 们 可 以 检 
查 待 处 理 任务 队列 的 规模 ， 如 果 该 队列 的 规模 大 于 1000， 就 将 该 线程 休眠 ， 队 列 规模 不 再 减 小 之 时 ， 
我 们 就 不 再 发 送 更 多 任务 了 。 


start=new Date(); 
for (File file : files) { 
IndexingTask task=new IndexingTask (file); 
completionService.submit (task); 
if (executor.getQueue().size()>1000) { 
do { 
try { 
TimeUnit.MILLISECONDS .sleep(50) 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} while (executor.getQueue().size()>1000); 
3 
} 


然后 ,创建 两 个 InvertedIndexTask 对 象 来 处 理由 InvertedTask 任务 返回 的 结果 ， 并 日 将 
其 作为 常规 Thread 对 象 来 执行 。 
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InVertedIndexTask invertedIndexTask=new InVertedqIndexTaSsK 
(completionService,invertedIndex); 

Thread threadl=new Thread(invertedIndexTask); 

threadl .start (); 

InvertedIindexTask invertedIndexTask2=new InvertedIndexTask 
(completionService,invertedIndex); 

Thread thread2=new Thread (invertedIindexTask2); 

thread2 .start (); 


启动 所 有 要 素 之 后 ， 可 使 用 shutdown () 方 法 和 awaitTermination() 方 法 等 待 执 行 右 结束 。 
awaitTermination() 方 法 将 在 所 有 InvertedTask 任务 执行 完毕 后 返回 ， 这 样 我 们 就 可 以 结束 执 
行 InvertedIndexTask 任务 的 线程 了 。 要 做 到 这 一 点 ,我 们 需要 中 断 这 些 线程 (参看 有 关 
InvertedIndexTask 的 注释 )， 如 下 面 的 代码 片段 所 示 : 


executor.shutdown(); 

tEy 
executor.awaitTermination(1, TimeUnit.DAYS); 
threadl.interrupt (); 
thread2.interrupt (); 
threadl1 .join(); 
thread2 .join(); 

} catch (InterruptedException e) { 
e.printSstackTrace(); 


} 
最 后 ， 我 们 在 控制 台 输 出 倒 排 索引 的 大 小 以 及 所 有 人 处 理 过 程 的 执行 时 间 : 


end=new Date(); 

System.out .println("Execution Time: "+(end.getTime()-— 
start.getTime())); 

System.out .println("invertedIindex: "+invertedIindex.size()); 


} 


5.3.4 第 二 个 并 发 版 本 : 每 个 任务 多 个 文档 


我 们 还 实现 了 本 例 的 第 二 个 并 发 版 本 。 基 本 原理 与 第 一 个 版 本 的 相同 , 但 是 在 本 例 中 ,每 个 任务 
将 处 理 多 个 文档 而 不 是 仅 处 理 一 个 文档 。 每 个 任务 处 理 的 文档 数 将 作为 main () 方 法 的 一 个 输入 参数 。 
我 们 测试 了 每 个 任务 处 理 100、1000 和 5000 个 文档 的 结 

为 实现 这 一 新 方式 ， 需 要 实现 下 述 三 个 新 类 。 
口 MultipleIndexingTask 类 : 该 类 与 IndexingTask 类 相当 ， 但 是 它 处 理 的 是 一 个 文档 列 
表 ， 而 不 仅仅 是 一 个 文档 。 
口 MultipleInvertedIndexTask 类 : 该 类 与 InvertedIndexTask 类 相当 ， 只 不 过 现在 任务 
要 检索 的 是 一 个 Document 对 象 列 表 ， 而 不 仅仅 是 一 个 Document 对 象 。 
口 MultipleConcurrentInd xing 类 : 该 类 与 ConcurrentInd xing 类 相当 ， 只 不 过 它 还 用 


到 了 其 他 新 类 。 
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鉴于 这 一 版 本 的 源 代码 和 前 一 版 本 多 有 相似 ,我们 仪 给 出 其 中 的 不 同 点 。 

1. MultipleIndexingTask 类 

正如 前 面 提 到 的 ， 该 类 和 此 前 介绍 的 IndexingTask 类 很 类 似 。 主 要 区 别 在 于 它 使 用 的 是 一 个 
File 对 象 列 表 ， 而 不 仅仅 是 一 个 文件 。 


public class MultipleIndexingTask implements Callable<List<Document>> { 


private List<File> files; 


public MultipleIndexingTask (List<File> files) { 
this.files = files; 


} 
call () 方 法 返回 的 是 一 个 Document 对 象 列 表 ， 而 不 仅仅 是 一 个 Document 对 象 。 


@Override 
public List<Document> call() throws Exception { 
List<Document> documents = new ArrayList<Document>(); 


for (File file : files) { 
DocumentParser parser = new DocumentParser (); 


Hashtable<String, Integer> voc = parser.parse 
(file.getAbsolutePath()); 


Document document = new Document () ; 
document .setFileName (file.getName ()); 
document .setVoc (voc); 


documents.add (document); 


} 


return documents; 


} 


2. MultipleInvertedIndexTask 类 

正如 前 面 提 到 的 , 该 类 和 前 面 介绍 的 InvertedIndexclass 类 相似 。 主要 区 别 在 于 run () 方 法 。 
poll () 方 法 返回 的 Future 对 象 返回 了 一 个 Document 对 象 列表 ， 因 此 我 们 要 处 理 的 是 整个 列表 。 
请 看 如 下 代码 片段 : 


@Override 
DUuBTie vord GE 人) 1 

try { 
while (!Thread.interrupted()) { 

try { 
List<Document> documents = completionService.take() .get (); 
for (Document document : documents) { 

updateInvertedIndex(document .getVoc(), invertedIindex, 


document .getFileName()); 
} 
} catch (InterruptedException e) { 
break; 
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} 
while (true) { 
Future<List<Document>> future = completionService.poll(); 
if (future == null) 
break; 
List<Document> documents = future.get(); 
for (Document document : documents) { 
updateInvertedIindex(document .getVoc(), invertedIindex, 
document .getFileName ()); 


} 
} catch (InterruptedException | ExecutionException e) { 
e.printStackTrace(); 


} 


Tr 


3. MultipleConcurrentIndexing 类 
正如 前 面 提 到 的 ， 该 类 和 concurrentIndexing 类 很 相似 。 唯 一 不 同 的 是 利用 新 类 ， 并 且 使 用 5 
第 一 个 参数 来 决定 每 个 任务 所 处 理 的 文档 数量 。 我 们 有 如 下 方法 : 


start=new Date(); 
List<File> taskFiles=new ArrayList<>(); 
for (File file : files) { 
taskFiles.add (file); 
if (taskFiles.size()==NUMBER_OF_TASKS) { 
MultipleIndexingTask task=new MultipleIndexingTask (taskFiles); 
completionService.submit (task); 
taskFiles=new ArrayList<>(); 
if (executor.getQueue().size()>10) { 
do { 
try { 
TimeUnit .MILLISECONDS.sleep (50); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 


} while (executor.getQueue().size()>10); 


} 

if (taskFiles.size()>0) { 
MultipleIndexingTask task=new MultipleIndexingTask (taskFiles); 
completionService.submit (task); 


ultipleInvertedIndexTask invertedIindexTask=new 
MultipleInvertedIindexTask (completionService,invertedIindex); 

Thread threadl=new Thread(invertedIndexTask); 

threadl .start (); 

ultipleInvertedIndexTask invertedIndexTask2=new 
MultipleInvertedIindexTask (completionService,invertedIindex); 

Thread thread2=new Thread (invertedIindexTask2); 

thread2.start (); 


112 


第 5 章 从 任务 获取 数据 : Callable 接口 与 Future 接口 


5.3.5 ”对 比 解决 方案 


让 我 们 对 比 一 下 前 面 
我 们 选取 了 有 关 电 影 信息 的 维 


已 经 实现 的 该 例 三 个 版 本 的 解决 方案 。 正 如 前 1 
基 百 科 页 面 构建 了 一 个 含有 100 673 个 文档 的 文档 集合 。 我 们 将 每 个 维 


基 百 科 页 面 转换 为 一 个 文本 文件 。 你 可 以 下 载 该 文档 集合 以 及 所 有 有 关 本 书 的 信息 。 


我 们 执行 了 五 个 版 本 的 解决 方案 。 
口 品行 版 本 。 
口 一 个 人 


E 务 处 理 一 个 文档 的 并 发 版 本 。 


掉 提 到 的 ， 在 文档 集合 方面 ， 


口 一 个 任务 处 理 多 个 文档 的 并 发 版 本 ， 分 为 每 个 任务 分 别处 理 100、1000 和 5000 个 文档 的 情况 。 
我 们 采用 JMH 框架 ( 请 查看 名 为 “Code Tools: jmh” 的 文章 ) 执行 这 些 示例 , 该 框架 允许 你 用 Java 
实现 微型 基准 测试 。 使 用 一 个 面向 基准 测试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 用 currentTime- 
Millis() 方 法 或 者 nanoTime () 方 法 度量 时 间 。 我 们 在 两 种 不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 
口 一 台 计算 机 配置 了 Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 器 有 两 
个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 我 们 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 
有 四 个 核 。 
下 表 给 出 了 五 个 版 本 的 执行 时 间 。 
二 Intel 架构 AMD 架构 
执行 时 间 (毫秒 ) 执行 时 间 (毫秒 ) 
串 行 版 本 29 305.63 137 519.75 
并 发 版 本 : 一 个 任务 处 理 一 个 文档 13 704.17 75 593.93 
并 发 版 本 : 一 个 任务 处 理 100 个 文档 26 579.30 195 928.209 
并 发 版 本 : 一 个 任务 处 理 1000 个 文档 25 126.47 133 080.655 
并 发 版 本 : 一 个 任务 处 理 5000 个 文档 23 454.38 118 789.394 
我 们 可 以 得 出 下 面 结论 。 
口 并 发 版 本 总 是 比 串 行 版 本 性 能 好 。 


等 ,实际 上 对 本 例 的 


口 对 于 并 发 版 本 而 言 ， 
在 本 例 中 ， 两 种 架构 上 的 执行 结果 有 较 大 差异 ， 但 是 其 人 
向 ， 因 为 本 例 读 取 的 文件 超过 100 000 份 ， 会 频繁 使 用 内 存 。 
就 会 得 到 如 下 结果 。 


结果 有 较 大 的 影 1 
如 果 我 们 使 用 加 速 [ 


如 果 增 加 每 个 任务 所 处 理 的 文档 数量 ， 将 获得 更 好 的 结果 。 


因素 ， 例 如 硬盘 、 内 存 空间 和 处 理 速度 


外 


82 


2.13 


来 比较 串 行 版 本 和 并 发 版 本 的 处 理 速度 ， 
i 
2 Tt 13 593.93 
Ee 
人 1370417 


concurrent 


5.4 小结 113 


5.3.6 ”其 他 相关 方法 


本 章 ， 我 们 用 AbstractExecutorService 接口 (在 ThreadPoolExecutor 类 中 实现 ) 和 
CompletionService 接口 (在 ExecutorCompletionService 中 实现 ) 的 一 些 方法 来 管理 callable 
任务 的 结果 。 然 而 ， 在 此 我 们 还 想 提 及 我 们 曾 用 过 的 这 些 方法 的 其 他 版 本 以 及 其 他 一 些 方法 。 
关于 AbstractExecutorService 接口 ， 我 们 介绍 下 述 方法 。 
口 invokeA11 (Collection<? extends Callable<T>> tasks, long timeout, TimeUnit 
unit): 当 作 为 参数 传递 的 callable 任务 列表 中 的 所 有 任务 完成 执行 ， 或 者 执行 时 间 超 出 
了 第 二 、 第 三 个 参数 指定 的 时 间 范 围 时 ， 该 方法 返回 一 个 与 该 callable 任务 列表 相关 联 的 
Future 对 象 列表 。 
口 invokeAny (Collection<? Extends Callable<T>> tasks, long timeout, TimeUnit 
unit): 当 作为 参数 传递 的 callable 任务 列表 中 的 任务 在 超时 ( 由 第 二 和 第 三 个 参数 指定 的 
期 限 ) 之 前 完成 其 执行 并 且 没 有 抛 出 异常 时 ， 该 方法 返回 callable 任务 列表 中 第 一 个 任务 
的 结果 。 如 果 超 时 ， 那么 该 方法 抛 出 一 个 TimeoutException 异常 。 

关于 CompletionService 接口 ， 我 们 介绍 下 述 方法 。 

口 boll () 方 法 : 我 们 用 到 了 该 方法 带 有 两 个 参数 的 版 本 ， 不 过 该 方法 还 有 一 个 不 带 参数 的 版 
本 。 从 内 部 数据 结构 来 看 ， 该 版 本 检索 并 且 删 除 自 上 一 次 调用 pol1l () 或 take () 方 法 以 来 下 
一 个 已 完成 任务 的 Future 对 象 。 如 果 没 有 任何 任务 完成 ， 执 行 该 方法 将 返回 null 值 。 

口 take () 方 法 : 该 方法 和 前 一 个 方法 类 似 ， 只 不 过 如 果 没 有 任何 任务 完成 ， 它 将 休眠 该 线程 ， 
直到 有 一 个 任务 执行 完毕 为 止 。 


5.4 小 结 


在 本 章 中 , 你 学 习 了 与 返回 结果 的 任务 打交道 时 用 到 的 几 种 机 制 。 这 些 任务 都 基于 callable 接 
口 ， 而 callable 接口 中 声明 了 call () 方 法 。 该 接口 是 一 个 由 call () 方 法 返回 的 类 进行 参数 化 的 
接口 。 

当 你 在 执行 器 中 执行 一 个 callable 任务 时 ， 总 是 要 获得 Future 接口 的 一 个 实现 。 你 可 以 使 用 
这 个 对 象 来 撤销 该 任务 的 执行 ， 通 过 该 对 象 来 知晓 任务 是 否 完成 执行 ， 或 者 获得 call () 方 法 所 返回 
的 结果 。 

你 可 以 通过 三 种 方式 将 callable 任务 发 送 给 执行 器 。 通 过 supmit () 方 法 可 以 发 送 一 个 任务 ， 
而 且 将 很 快 获得 一 个 与 该 任务 相关 联 的 Future 对 象 。 通 过 invokeal1l () 方 法 ， 你 可 以 发 送 一 个 任 
务 列表 ， 并 且 当 所 有 任务 都 完成 执行 之 后 获得 一 个 Future 对 象 列表 。 通 过 invokeany () 方 法 ， 你 
可 以 发 送 一 个 任务 列表 ， 而 且 将 接收 到 第 一 个 执行 结束 上 且 没 有 抛 出 异常 的 任务 的 结果 ( 并 不 是 一 个 
Future 对 象 )。 剩 余 其 他 任务 将 被 撤销 。 

Java 并 发 API 提供 了 男 一 种 机 制 来 处 理 这 些 任务 类 型 ,这 种 机 制 在 completionservice 接口 中 
定义 ， 并 且 在 ExecutorcompletionService 类 中 实现 。 这 种 机 制 允许 你 将 任务 的 执行 与 任务 结果 
的 处 理解 而。completionService 接口 在 内 部 使 用 了 一 个 执行 器 ， 并 且 提 供 submit ( ) 方法 将 任务 
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发 送 给 CompletionService 接口 ， 还 提供 了 pol1l () 方 法 和 take() 方 法 来 获取 这 些 任务 的 结果 。 
提供 这 些 结 果 的 顺序 与 任务 执行 完毕 的 顺序 相同 。 

你 还 学 会 了 如 何 通过 两 个 真实 的 例子 来 实现 这 些 理念 。 首 先是 一 个 针对 UKACD 数据 集 的 最 佳 匹 
配 算法 ; 其 次 是 一 个 倒 排 索引 构造 程序 ， 它 用 到 的 数据 集 包 含 了 从 维基 百科 上 抽取 的 10 万 多 份 有 关 
电影 信息 的 文档 。 

下 一 章 ， 你 将 学 会 如 何以 一 种 划分 为 多 个 阶段 的 并 发 方式 来 执行 算法 。 这 些 阶 段 的 主要 特点 是 ， 
你 必须 在 开始 下 一 阶段 之 前 将 当前 阶段 的 所 有 任务 执行 完毕 。Java 并 发 API 提供 了 Phaser 类 , 可 使 
这 些 算法 的 并 发 实现 更 加 方便 。 该 类 让 你 可 以 在 一 个 阶段 结束 时 同步 所 有 参与 本 阶段 工作 的 任务 ， 
此 在 当前 阶段 执行 完毕 之 前 ， 任 何 任务 都 不 能 开始 下 一 阶段 的 工作 。 
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Phaser 类 


在 并 发 API 中 , 最 重要 的 因素 就 是 它 为 编程 人 员 提 供 的 同步 机 制 。 同步 是 指 为 获得 预期 结果 而 对 
两 个 或 多 个 任务 进行 的 协调 。 当 两 个 或 多 个 任务 按 预 定 顺序 执行 时 ， 可 以 对 其 执行 进行 同步 ; 或 是 当 
一 次 只 有 一 个 线程 可 以 执行 某 个 代码 段 或 者 修改 某 个 内 存 区 域 时 ,可 以 同步 两 个 或 多 个 任务 对 共享 资 
源 的 访问 。Java 9 并 发 API 提 供 了 大 量 同步 机 制 ， 从 基本 的 synchronized 关键 字 和 Lock 接口 以 及 
它们 用 于 保护 临界 段 的 具体 实现 ， 到 更 高 级 的 CyclicBarrier 类 和 countDownLatch 类 ， 支 持 同 
步 不 同 任务 的 执行 顺序 。 在 Java7 中 , 并 发 API 引 入 了 Phaser 类 。 该 类 提供 了 一 种 强大 的 机 制 (分 
段 器 ), 将 任务 划分 为 多 个 阶段 执行 。 任 务 可 以 要 求 Phaser 类 等 待 直到 所 有 其 他 参与 方 完成 该 阶段 。 
本 章 将 涵盖 下 述 主题 。 
口 Phaser 类 简介 。 
口 第 一 个 例子 : 关键 字 抽 取 算 法 。 
口 第 二 个 例子 : 遗传 算法 。 


6.1 Phaser 类 简介 


Phaser 类 是 一 种 同步 机 制 ， 用 于 控制 以 并 发 方式 划分 为 多 个 阶段 的 算法 的 执行 。 如 果 处 理 过 程 
已 有 明确 定义 的 步 又， 那么 必须 在 开始 第 二 个 步骤 之 前 完成 第 一 步 的 工作 ， 以 此 类 推 ,并 且 可 以 使 用 
Phaser 类 实现 该 过 程 的 并 发 版 本 。Phaser 类 的 主要 特征 有 以 下 几 点 。 
口 分 段 吉 ( phaser ) 必须 知道 要 控制 的 任务 数 。Java 称 之 为 参与 者 的 注册 机 制 。 参 与 者 可 以 随时 


在 分 段 需 中 注册 。 
口 任务 完成 一 个 阶段 之 后 必须 通知 分 段 器 。 在 所 有 参与 者 都 完成 该 阶段 之 前 ， 分 段 器 将 使 该 任 
务 处 于 休眠 状态 。 


口 在 内 部 ， 分 段 器 保存 了 一 个 整数 值 ， 该 值 存储 分 段 器 已 经 进行 的 阶段 变更 数目 。 

口 参与 者 可 以 随时 脱离 分 段 器 的 控制 。Java 将 这 一 过 程 称 为 参与 者 的 注销 。 

口 当 分 段 器 做 出 阶段 变更 时 ， 可 以 执行 定制 的 代码 。 

口 控制 分 段 器 的 终止 。 如 果 一 个 分 段 器 终止 了 ， 就 不 再 接受 新 的 参与 者 ， 也 不 会 进行 任务 之 间 
的 同步 。 
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口 通过 一 些 方法 获得 分 段 器 的 参与 者 数目 及 其 状态 。 


6.1.1 参与 者 的 注册 与 注销 


如 前 所 述 ， 一 个 分 段 费 必须 知道 其 控制 的 任务 数目 ， 必 须知 道 正 在 执行 划分 为 多 个 阶段 的 算法 的 
不 同 线程 数目 ， 以 便 正确 控制 同时 发 生 的 阶段 变更 。 
Java 将 此 过 程 称 作 参 与 者 的 注册 。 正常 情况 下 , 参与 者 在 执行 开始 时 注册 , 但 是 也 可 以 随时 注册 。 
可 以 采用 不 同方 式 注册 参与 者 ， 如 下 所 示 。 
口 创建 Pphaser 对 象 时 : Phaser 类 提供 了 四 个 不 同 的 构造 函数 。 其 中 常用 的 有 两 个 。 
里 Phaser () : 该 构造 函数 创建 了 一 个 0 个 参与 者 的 分 段 器 。 
四 Phaser (int parties): 该 构造 函数 创建 了 一 个 含有 给 定数 目 参 与 者 的 分 段 器 。 
口 还 可 以 通过 下 述 方法 显 式 创建 。 
四 bulkRegisterl (int parties): 同时 注册 给 定数 目的 新 参与 者 。 
上 register(): 注册 一 个 新 参与 者 。 
分 段 器 控制 的 任务 完成 执行 时 ， 必 须 从 分 段 器 注销 。 如 果 不 这 样 做 ,分 段 器 就 会 在 下 一 阶段 变更 
中 一 直 等 待 该 任务 。 注 销 一 个 参与 者 , 可 以 使 用 arriveAndDeregister () 方 法 。 使 用 该 方法 告知 分 
段 带 该 任务 已 经 完成 了 当前 阶段 ， 而 且 不 再 参与 下 一 阶段 。 


6.1.2 同步 阶段 变 


分 段 器 的 主要 目的 是 使 那些 可 以 分 割 成 多 个 阶段 的 算法 以 并 发 方式 执行 。 所 有 任务 完成 当前 阶段 
之 前 ， 任 何 任务 都 不 能 进入 下 一 阶段 。Phaser 类 提供 了 arrive() 、 arriveandDeregister() 和 
arriveandqaAwaitaAdvance () 三 个 方法 通报 任务 已 经 完成 当前 阶段 。 如 果 其 中 某 个 任务 没有 调用 上 述 
三 个 方法 之 一 , 那么 分 段 器 对 其 他 参与 任务 的 阻塞 是 不 确定 的 。 继续 进入 下 一 阶段 需要 用 到 下 述 方法 。 
口 arriveandqawaitadvance() : 任务 使 用 该 方法 向 分 段 右 通报 ， 表 明 它 已 经 完成 了 当前 阶段 
并 且 要 继续 下 一 阶段 。 分 段 器 将 阻塞 该 任务 ， 直 到 所 有 参与 的 任务 已 调用 其 中 一 个 同步 方法 。 
口 awaitAdvance (int phase) : 任务 使 用 该 方法 向 分 段 器 通报 ， 如 果 该 方法 参数 中 的 数值 和 

分 段 右 的 实际 阶段 数 相等 ， 就 要 等 待 当 前 阶段 结束 ; 如 果 这 两 个 数值 不 相等 ， 则 该 方法 立即 
返回 。 


6.1.3 ”其 他 功能 


在 所 有 参与 任务 都 完成 了 某 个 阶段 的 执行 之 后 , 在 继续 下 一 阶段 之 前 ，Phaser 类 执行 onAdvance () 
方法 。 该 方法 接收 如 下 两 个 参数 。 
口 bnase: 这 是 已 执行 完毕 阶段 的 编号 。 第 一 个 阶段 的 编号 为 0。 
口 registeredParties: 这 个 参数 代表 参与 任务 的 数目 。 

如 果 想 在 两 个 阶段 之 间 执 行 一 些 代 码 ， 例 如 ， 对 某 些 数据 进行 排序 或 者 转换 ， 那 么 可 以 扩展 
Phaser 类 并 重 载 该 方法 以 实现 自己 的 分 段 器 。 
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分 段 锅 可 以 有 以 下 两 种 状态 。 


直到 其 终止 。 处 于 这 种 状态 时 ， 它 接受 新 的 参与 者 并 像 之 前 所 述 那样 工作 。 


口 激活 状态 : 创建 了 分 段 器 且 新 的 参与 考 注册 后 ， 分 段 器 将 进入 激活 状态 ， 并 持续 这 种 状态 ， 


参与 者 都 注销 后 ，onAdqvance () 方 法 将 返回 true 值 。 


gi 分 段 器 处 于 终止 状态 时 ， 新 参与 者 的 注册 无 效 ， 而 且 同 步 方法 会 立即 返回 。 


最 后 ，Phaser 类 提供 了 一 些 方法 ， 获 取 分 段 器 状态 和 其 中 参与 者 的 信息 。 
口 getRegistereqParties() : 该 方法 返回 分 段 右 中 参与 者 的 数目 。 

口 getPhase(): 该 方法 返回 当前 阶段 的 编号 。 
口 getArrivedParties(): 该 方法 返回 已 经 完成 当前 阶段 的 参与 者 的 数目 。 

口 getUnarrivedParties(): 该 方法 返回 尚未 完成 当前 阶段 的 参与 者 的 数目 。 

口 isTerminated(): 如 果 分 段 器 处 于 终止 状态 ， 则 该 方法 返回 true 值 ， 否 则 返回 false 值 。 
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口 终止 状态 : onadqvance () 方 法 返回 true 值 时 ， 分 段 器 进入 这 种 状态 。 默 认 情 况 下 ， 当 所 有 


在 本 节 ， 你 将 使 用 分 段 器 实现 关键 字 抽取 算法 。 这 类 算法 的 主要 用 途 是 从 文本 文档 或 者 文档 集合 
( 内 部 对 每 个 文档 做 了 更 好 的 定义 ) 中 抽取 单词 ， 这 些 术语 可 用 于 文档 综述 ， 文 档 的 聚 类 分 析 ， 或 者 


信息 检索 过 程 的 提升 。 


使 用 )， 其 中 有 如 下 两 项 。 
口 术语 频次 ( TF ) 是 指 一 个 单词 在 某 个 文档 中 出 现 的 次 数 。 


该 单词 仅 在 少数 几 个 文档 中 出 现 ， 那 么 它 的 IDF 值 会 很 高 。 
在 文档 中 单词 {的 TFIDF 值 可 以 通过 下 述 公式 计算 。 


TF-IDF =TFxIDF =F, x os 


t 


上 述 公式 用 到 的 属性 其 解释 如 下 。 

口 fia 是 单词 + 在 文档 d 中 出 现 的 次 数 。 

口 Y 是 集合 中 文档 的 数目 。 

口 由 是 含有 单词 { 的 文档 的 数目 。 

为 获取 文档 的 关键 字 ， 可 以 选用 具有 较 高 TF-IDF 值 的 单词 。 

要 实现 的 算法 将 通过 执行 下 述 阶段 计算 文档 集合 中 的 最 佳 关 键 字 。 


从 文档 集合 的 文档 中 抽取 关键 字 最 基本 的 算法 是 基于 TF-IDF 方法 〈 而 且 该 方法 目前 仍然 被 广泛 


口 文档 频次 ( DF ) 是 含有 某 个 单词 的 文档 的 数量 。 逆 文档 频次 ( IDF ) 用 于 度量 单词 所 提供 的 使 
某 个 文档 区 别 于 其 他 文档 的 信息 。 如 果 一 个 单词 很 常用 ， 那么 它 的 IDF 值 会 很 低 ， 但 是 如 果 


口 阶段 1: 解析 所 有 文档 并 且 抽 取 所 有 单词 的 DF 值 。 请 注意 ， 只 有 解析 了 所 有 文档 才 可 以 获得 


准确 值 。 
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口 阶段 2: 计算 所 有 文档 中 单词 的 TF-IDF 值 。 为 每 个 文档 选择 10 个 关键 字 (TF-IDF 值 评价 最 
高 的 10 个 单词 ) 。 
口 阶段 3: 获得 一 个 最 佳 关键 字 列 表 。 这 个 列表 中 的 单词 应 该 能 够 代表 大 多 数 文档 的 关键 字 。 
为 了 测试 算法 ,将 使 用 有 关 电 影 信息 的 维基 百科 页 面 作为 文档 集合 。 该 集合 与 第 5 章 中 用 过 的 集 
合 相 同 ， 由 100 673 个 文档 组 成 。 我 们 将 每 个 维基 百科 页 面 转换 成 一 个 文本 文件 ， 可 以 随 本 书 配 套 的 
资源 下 载 该 文档 集合 。 
你 将 实现 本 算法 的 两 个 版 本 : 基础 串 行 版 本 和 使 用 Phaser 类 的 并 发 版 本 。 在 此 之 后 ， 我 们 将 比 
较 两 个 版 本 的 执行 时 间 ， 以 验证 并 发 处 理 能 够 带 来 更 好 的 性 能 。 


[Uy 


6.2.1 公共 类 


该 算法 的 两 个 版 本 具有 一 些 通用 功能 ， 用 于 解析 文档 以 及 存储 有 关 文 档 、 关 键 字 和 单词 的 信息 。 
这 样 的 公共 类 有 如 下 几 项 。 
口 Document 类 : 用 于 存放 含有 文档 以 及 构成 文档 的 单词 的 文件 名 。 
口 word 类 : 用 于 存放 单词 字符 串 和 度量 该 单词 的 指标 (TF、DF 和 TF-IDF ) 。 
口 Keyword 类 : 用 于 存放 单词 字符 串 以 及 将 该 单词 作为 关键 字 的 文档 数量 。 
口 DocumentParser 类 : 用 于 抽取 某 个 文档 的 单词 。 

下 面 详细 介绍 一 下 这 些 类 。 

1. word 类 

Wora 类 存放 了 有 关 某 个 单词 的 信息 。 这 些 信息 包括 整个 单词 以 及 影响 它 的 措施 ， 也 就 是 它 在 某 
个 文档 中 的 TF 值 ， 全 局 DF 值 ， 以 及 其 最 终 的 TF-IDF 值 。 

该 类 实现 了 comparable 接口 , 因为 要 对 单词 数组 进行 排序 , 以 获得 具有 较 高 TF-IDF 值 的 单词 。 
相关 代码 如 下 。 

public class Word implements Comparable<Word> { 

然后 ， 声 明 该 类 的 属性 并 且 实 现 获 取 和 设置 这 些 属性 的 方法 ( 在 此 未 给 出 )。 


private String word; 
private int tf; 
private int df; 
private double tfIidf; 


我 们 还 实现 了 其 他 一 些 有 用 的 方法 ， 如 下 所 示 。 
口 该 类 的 构造 隐 数 ， 对 word ( 接收 作为 参数 的 单词 ) 和 af 属性 ( 取 值 为 1 ) 进行 了 初始 化 。 
口 aagTf () 方 法 ， 用 于 增加 tf 属性 的 值 。 
口 merge() 方 法 ,接收 一 个 Word 对 象 作 为 参数 ， 对 来 自 两 个 不 同文 档 的 同一 单词 进行 合并 。 
将 两 个 worad 对 象 的 tf 属性 值 和 af 属性 值 相 加 。 
然后 ， 实 现 了 setDf () 方 法 的 一 个 特殊 版 本 。 该 方法 接收 af 属性 值 作为 参数 ， 接 收集 合 中 文档 
的 总 数 ， 然 后 计算 得 出 tfIGf 属性 的 值 。 
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public voidq setDf(int df, int N) { 

eon 6 Do hey, 

tfIdf = tf * Math.log(Double.valueOf (N) / df); 
} 


最 后 ,实现 了 compareTo () 方 法 ， 并 希望 按照 cfIgf 属性 值 从 高 到 底 的 顺序 对 单词 进行 排序 。 


@Override 
public int compareTo(Word o) { 
return Double.compare(o.getTfIidf(), this.getTfIdf()); 
lj 
} 
2. Keyword 类 


Keyword 类 存放 了 关于 关键 字 的 信息 。 该 信息 包括 完整 的 单词 以 及 将 该 单词 作为 关键 字 的 文 
档 数 。 

与 Word 类 一 样 , 之 所 以 该 类 也 实现 了 comparable 接口 ,是 因为 将 对 一 个 关键 字数 组 进行 排序 
以 获取 最 佳 关 键 字 。 

public class Keyword implements Comparable<Keyword> { 

然后 ， 声 明 该 类 的 属性 并 且 实 现 相应 的 方法 设 定 和 返回 属性 值 ( 这些 在 此 未 给 出 )。 


private String word; 
private int df; 


最 后 ， 实 现 compareTo() 方 法 , 希望 能 够 按照 文件 数量 由 多 到 小 的 顺序 排列 关键 字 。 


@Override 
public int compareTo(Keyword o) { 


return Integer.compare(o.getDf(), this.getDf ()); 
} 
} 


3. Document 类 
Document 类 存放 文档 集合 ( 请 记 住 集 合 中 有 100 673 个 文档 ) Ts 其 中 包 
括 文件 名 和 构成 该 文档 的 单词 集合 。 该 单词 集合 通常 也 被 称 作 该 文档 的 词汇 表 ,， 采 用 HashMap 实现 ， 
它 将 整个 单词 视 为 一 个 字符 串 并 作为 键 ， 将 一 个 word 对 象 作 为 值 。 


public class Document { 
private String fileName; 
private HashMap <String, Word> voc; 


我 们 实现 了 一 个 构造 函数 创建 该 HashMap, 实现 了 用 于 获取 和 设置 文件 名 的 方法 , 以 及 返回 文档 
词汇 表 的 方法 (这些 方法 在 此 未 给 出 )。 我 们 还 实现 了 一 个 向 词汇 表 添 加 单词 的 方法 。 如 果 单 词 不 在 
词汇 表 中 ， 则 将 其 加 入 词汇 表 。 

如 果 单 词 在 词汇 表 中 , 则 增加 该 单词 的 tf 属性 值 。 我 们 使 用 了 voc 对 象 的 computeIfAbsent () 
方法 。 如 果 单 词 不 在 词汇 表 中 ， 则 该 方法 会 将 其 插入 到 HashMap 当中 ， 然 后 用 adgTf ( ) 方 法 来 增加 
tf 值 。 
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public voidq addWord(String string) { 
voc.computeIfAbsent (string, k -> new Word(k)).addaTf () ; 
了 
} 


HashMap 类 并 不 是 同步 的 ， 但 是 仍然 可 以 在 并 发 应 用 程序 中 使 用 ， 因 为 不 同 任务 并 不 会 共享 该 
类 。 一 个 Document 对 象 只 能 由 一 个 任务 生成 ， 因 此 使 用 HashMap 类 时 并 不 会 导致 并 发 版 应 用 程序 


中 的 竞争 条 件 。 


4. DocumentParser 类 


DocumentParset 类 读 取 一 个 文本 文件 的 内 容 并 且 将 其 转换 成 一 个 Document 对 象 ,该 类 将 文本 
分 割 成 若干 单词 并 且 将 它们 存放 在 Document 对 象 中 ,进而 生成 词汇 表 。 该 类 有 两 个 静态 方法 : 第 一 


个 是 parse () 方 法 , 接收 文件 路 径 字 符 串 , 返回 一 个 Document 对 象 。 该 方法 打开 文件 并 且 逐 
使 用 parseLine () 方 法 将 每 行 转 换 成 一 个 单词 序列 ， 并 且 将 它们 存放 在 Document 类 。 


public class DocumentParser { 


public static Document parse(String path) { 
Document ret = new Document (); 
Path file = Paths.get (path); 
ret.setFileName (file.toString()); 


try (BufferedReader reader = 
Files.newBufferedReader (file)) { 
for(String line : Files.readAllLines (file)) { 
parseLine(line, ret); 
} 
} catch (IOException x) { 
x.printStackTrace (); 


} 


return ret; 


} 
parseLine() 方 法 接收 待 解 析 的 行 和 用 于 存放 单词 的 Document 对 象 作为 参数 。 
首先 ， 该 方法 使 用 Normalizer 类 删除 每 一 行 的 重音 符号 ， 并 将 其 转换 成 小 写 形 式 。 


private static void parseLine(String line, Document ret) { 


line = Normalizer.normalize(line, Normalizer.Form.NFKD); 
line = line.replaceAll("[^\\p{ASCIT}]", ""); 
line = line.toLowerCase(); 


队 行 读 取 ， 


然后 , 使 用 stringTokenizer 类 将 该 行 分 割 成 多 个 单间 , 并 且 将 这 些 单词 添加 到 Document 对 象 。 


private static void parseLine(String line, Document ret) { 


// 清理 字符 串 

line = Normalizer.normalize(line, Normalizer.Form.NFKD); 
line = line.replaceAll("[^\\p{ASCIT}]", ""); 

line = line.toLowerCase(); 
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// 分 词 程序 


for(String w: line.split("\\W+")) { 
ret .addWord (w); 
} 
} 


6.2.2 ”上 串 行 版 本 


我 们 已 在 SerialKeywordExtraction 类 中 实现 了 关键 字 算 法 的 串 行 版 本 。 该 类 定义 了 执行 测 
试 该 算法 的 main () 方 法 。 
第 一 步 是 声明 以 下 这 些 执行 算法 必需 的 内 部 变量 。 
口 两 个 用 于 度量 执行 时 间 的 Date 对 象 。 
口 一 个 存放 含有 文档 集合 的 目录 名 称 的 字符 串 。 
口 一 个 用 于 存放 有 关 文 档 集合 文件 的 File 对 象 数 组 。 
口 一 个 用 于 存放 文档 集合 全 局 词汇 表 的 HashMap。 
口 一 个 用 于 存放 关键 字 的 HashMap。 
口 两 个 用 于 度量 有 关 执 行情 况 统计 数据 的 int 值 。 
下 面 给 出 了 这 些 变量 的 声明 。 


public class SerialKeywordExtraction { 


public static void main(String[] args) { 
Date start, end; 


File source = new File("data"); 

File[] files = source.listFiles(); 

HashMap<String, Word> globalVoc = new HashMap<>(); 
HashMap<String, Integer> globalKeywords = new HashMap<>(); 
int totalCalls = 0; 

int numDocuments = 0; 


start = new Date(); 


然后 ,介绍 该 算法 的 第 一 阶段 。 我 们 使 用 DocumentParser 类 的 parse() 方 法 解析 所 有 文档 。 
该 方法 返回 一 个 含有 文档 词汇 表 的 Document 对 象 。 我 们 使 用 HashMap 类 的 merge () 方 法 将 文档 词 
汇 表 添加 到 全 局 词汇 表 。 如 果 单 词 不 存在 , 则 将 它 插 入 HashMap。 如 果 该 单词 已 存在 ， 则 将 两 个 单词 
对 象 合并 到 一 起 ， 并 且 对 Tf 属性 和 Df 属性 求 和 。 


if(files == null) { 
System.err.println("Unable to read the 'data' folder"); 
return; 

} 

fOr (FiLe LS i iFes) 蒜 


A 
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if (file.getName() .endsWith(".txt")) { 
Document doc = DocumentParser.parse (file.getAbsolutePath()); 
for (Word word : doc.getVoc().values()) { 
globalVoc.merge (word.getWord(), word, Word::merge); 


} 


numDocument s++; 
} 
} 


System.out .println("Corpus: " + numDocuments + " documents."); 


在 此 阶段 之 后 ，globalVocHashMap 类 包含 了 文档 集合 的 所 有 单词 ， 以 及 单词 的 全 局 TF ( 单词 
在 文档 集合 中 出 现 的 总 次 数 ) 和 DF 值 。 
然后 ， 引 入 该 算法 的 第 二 阶段 。 如 前 所 述 ， 我 们 将 使 用 TF-IDF 指标 计算 每 个 文档 的 关键 字 。 必 
须 再 次 解析 每 个 文档 以 生成 其 词汇 表 ， 因 为 内 存 不 能 存放 构成 文档 集合 的 100 673 份 文档 的 词汇 表 。 
如 果 处 理 的 文档 集合 规模 较 小 ， 可 以 尝试 只 解析 这 些 文档 一 次 ,并 且 将 全 部 文档 的 词汇 表 存 放 在 内 存 
中 。 不 过 在 我 们 的 例子 中 ， 这 是 不 可 能 的 。 因 此 ， 再 次 解析 全 部 文档 ， 并 且 使 用 globalvoc 中 存放 
的 值 更 新 每 个 单词 的 af 属性 。 我 们 还 构造 了 一 个 含有 文档 中 所 有 单词 的 数组 。 


for (File file : files) { 
if (file.getName() .endsWith(".txt")) { 
Document doc = DocumentParser.parse (file.getAbsolutePath()); 
List<Word> keywords = new ArrayList<>( doc.getVoc() .values ()); 


int index = 0; 

for (Word word : keywords) { 
Word globalWord = globalVoc.get (word.getWord()); 
word.setDf (globalWord.getDf(), numDocuments); 


} 
现在 ， 有 关键 字 列 表 ， 其 中 含有 文档 中 所 有 单词 以 及 计算 得 出 的 TF-IDF 值 。 使 用 collections 
类 的 sort () 方 法 对 该 列表 排序 , 具有 较 高 TF-IDF 值 的 单词 排 在 前 面 。 然 后 , 我们 获取 该 列表 中 的 前 
10 个 单词 ， 并 日 使 用 aqdKeyword () 方 法 将 其 存放 在 globalKeywordsHashMap 中 。 
选择 排名 前 10 的 单词 并 没有 特殊 原因 。 其 他 供 选 方案 也 可 以 尝试 ， 例 如 某 一 比例 的 一 组 单词 或 
者 TF-IDF 指标 最 小 值 等 ， 看 看 它们 的 表现 情况 。 


Collections .sort (keywords); 


int counter = 0; 


for (Word word : keywords) { 
addKeyword (globalKeywords, word.getWord()); 
totalCalls++; 
} 
} 
} 


最 后 ， 引 入 该 算法 的 第 三 阶段 。 将 globalKeywordsHashMap 转换 成 一 个 Keyword 对 象 列表 ， 
使 用 collections 类 的 sort () 方 法 对 该 数组 进行 排序 。 将 DF 值 较 高 的 关键 字 排 在 列表 的 前 面 , 并 
且 在 控制 台 输 出 前 100 个 单词 。 
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相关 代码 如 下 所 示 : 
List<Keyword> orderedGlobalKeywords = new ArrayList<>(); 
for (Entry<String, Integer> entry : globalKeywords.entrySet()) { 


Keyword keyword = new Keyword(); 

keyword.setWord (enttry .getKey ()); 

keyword.setDf (entry.getValue()); 

orderedGlobalKeywords.add (keyword); 
} 


Collections.sort (orderedGlobalKeywords); 


if (orderedGlobalKeywords.size() > 100) { 


orderedGlobalKeywords = orderedGlobalKeywords.subList(0, 100); 
} 


for (Keyword keyword : orderedGlobalKeywords) { 


System.out .println(keyword.getWord() + ": " + keyword.getDf ()); 
} 


与 第 二 阶段 相同 ， 选 择 前 100 个 单词 没有 特殊 的 理由 。 也 可 以 尝试 其 他 供 选 方案 。 
为 了 结束 main () 方 法 ， 在 控制 台 输出 执行 时 间 和 其 他 统计 数据 。 


end = new Date(); 


System.out.println("Execution Time: " + (end.getTime() - 
start.getTime())); 
System.out .println("Vocabulary Size: " + globalVoc.size()); 
System.out .println("Keyword Size: " + globalKeywords.size()); 
System.out.println("Number of Documents: " + numDocuments); 
System.out .println("Total calls: " + totalCalls); 


} 


SerialKeywordExtraction 类 还 包括 addKeyword() 方 法 ， 它 用 于 更 新 globalKeywords- 


HashMap 类 中 某 个 关键 字 的 信息 。 如 果 该 单词 存在 , 则 该 类 更 新 其 DF 值 ; 如 果 不 存 在 , 则 将 其 插入 。 
相关 代码 如 下 : 


private static void addKeyword (Map<String, Integer> 
globalKeywords, String word) { 
globalKeywords.merge (word, 1, Integer::sum); 


} 


6.2.3 ”并 发 版 本 


为 了 实现 本 例 的 并 发 版 本 ， 我 们 用 到 了 如 下 两 个 不 同 的 类 。 
口 KeywordExtractionTasks 类 : 该 类 以 并 发 方式 实现 准备 计算 关键 字 的 任务 。 这 些 任务 将 
作为 Thread 对 象 执行 ， 因 此 该 类 实现 了 Runnable 接口 。 


口 ConcurrentKeywordExtraction 类 : 该 类 提供 main () 方 法 执行 算法 ， 创 建 、 启 动 任 务 ， 
并 且 等 待 任务 完成 。 
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下 面 仔细 看 看 这 些 类 。 
1. KeywordExtractionTask 类 
如 前 所 述 ， 该 类 实现 了 计算 最 终 单词 列表 的 任务 。 它 实现 了 Runnable 接口 ， 因 此 可 以 将 其 作为 
一 个 Threag 线程 执行 ， 而 且 其 内 部 用 到 了 一 些 属性 ， 大 多 数 属性 所 有 任务 共享 。 
口 用 于 存放 全 局 词汇 表 和 全 局 关键 字 的 两 个 concurrentHashMap 对 象 : 之 所 以 使 用 
ConcurrentHashMap 是 因为 这 些 对 象 将 被 所 有 任务 更 新 ， 这 样 就 必须 采用 并 发 数据 结构 避 
免 竞争 条 件 。 
口 用 于 存放 文档 集合 文件 列表 的 两 个 文件 对 象 concurrentLinkedpeque: 之 所 以 使 用 
ConcurrentLinkedDeque 类 是 因为 所 有 任务 都 将 同时 抽取 (获取 或 删除 ) 该 列表 的 元 素 ， 
因此 必须 使 用 并 发 数据 结构 以 避免 竞争 条 件 。 如 果 使 用 常规 List， 那 么 同一 File 对 象 会 被 
不 同 的 任务 解析 两 次 。 之 所 以 采用 两 个 concurrentLinkedDeque 是 因为 必须 要 对 整个 文档 
集合 解析 两 次 。 如 前 所 述 ， 通 过 从 数据 结构 中 抽取 File 对 象 解析 文档 集合 。 因 此 ， 解 析 该 
集合 时 ， 该 数据 结构 将 为 空 
口 用 于 控制 任务 执行 的 Phaser 对 象 : 如 前 所 述 ， 关 键 字 抽取 算法 按照 三 个 阶段 执行 。 在 所 有 
任务 都 完成 上 一 阶段 之 前 ， 任 何 任务 都 不 能 进入 下 一 阶段 。 使 用 Phaser 类 对 此 加 以 控制 。 
昌 将 会 得 到 不 一 致 的 结果 。 
最 后 阶段 必须 由 唯一 的 线程 执行 : 将 使 用 布尔 值 区 分 主任 务 与 其 他 任务 。 这 些 主 任务 将 执行 
Se 
口 集合 中 的 文档 总 数 : 需要 该 值 计算 TF-IDF 指标 。 
我 们 引入 了 一 个 构造 函数 以 初始 化 所 有 属性 。 


public class KeywordExtractionTask implements Runnable { 


private ConcurrentHashMap<String, Word> globalVoc; 
private ConcurrentHashMap<String, Integer> globalKeywords; 


private ConcurrentLinkedDeque<File> concurrentFileListPhasel; 
private ConcurrentLinkedDeque<File> concurrentFileListPhase2; 


private Phaser phaser; 


private String name; 
private boolean main; 


private int parsedDocuments; 
private int numDocuments; 


public KeywordExtractionTask( 
ConcurrentLinkedDeque<File> concurrentFileListPhasel, 
ConcurrentLinkedDeque<File> concurrentFileListPhase2, 
Phaser phaser, ConcurrentHashMap<String, Word> 
globalVoc, 
ConcurrentHashMap<String, JInteger> globalKeywords, 
int numDocuments, String name, boolean main) { 
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his.concurrentFileListPhasel = concurrentFileListPhasel; 
his.concurrentFileListPhase2 = concurrentFileListPhase2; 
his.globalVoc = globalVoc; 

his.globalKeywords = globalKeywords; 

his.phaser = phaser; 

his.main = main; 


his.name = name; 
his.numDocuments = numDocuments; 


人 


} 

使 用 run() 方 法 实现 该 算法 分 为 三 个 阶段 。 首 先 ， 调 用 分 段 器 的 arriveAndAwaitAgdvance () 
方法 等 待 其 他 任务 的 创建 。 所 有 任务 都 会 同时 开始 执行 。 然 后 ， 正 如 在 该 算法 的 串 行 版 本 中 提 到 的 ， 
解析 所 有 文档 并 且 构 建 globalVvocconcurrentHashMap 类 ,其 中 含有 所 有 单词 及 其 全 局 TF 值 和 DF 
值 ,为 了 完成 第 一 阶段 , 再 次 调用 arriveAndAwaitAdvance() 方 法 , 在 第 二 阶段 开始 之 前 等 待 其 他 


任务 结 
QOverride 
public voidq run() { 
File file; 
// 第 一 阶段 
phaser.arriveAndAwaitAdvance(); 
System.out .println(name + ": Phase 1"); 
while ((file = concurrentFileListPhasel.poll1()) != null) { 
Document doc = DocumentParser.parse (file.getAbsolutePath()); 
for (Word word : doc.getVoc().values()) { 
globalVoc.merge (word.getWord(), word, Word::merge); 


lj 
parsedDocuments++; 


} 


System.out.println(name + ": " + parsedDocuments + 
" parsed."); 
phaser.arriveAndAwaitAdvance(); 


正如 你 看 到 的 ， 为 获取 待 处 理 的 File 对象, 使 用 了 concurrentLinkedDeque 类 的 pol1() 方 
法 。 该 方法 检索 并 且 删 除 Deque 的 第 一 个 元 素 ， 这 样 下 一 个 任务 将 获取 不 同 的 文件 进行 解析 ， 并 且 
没有 文件 会 被 解析 两 次 。 

正如 在 该 算法 的 串 行 版 中 提 到 的 ， 第 二 阶段 计算 了 globalKeywords 结构 。 首 先 ， 计算 每 个 文 
档 最 优 的 10 个 关键 字 ， 然 后 将 其 插入 concurrentHashMap 类 。 该 代码 和 串 行 版 中 的 相同 ， 只 是 将 
串 行 数据 结构 赫 换 为 并 发 数据 结构 。 


// 第 二 阶段 
System.out .Println(name + ": Phase 2"); 
while ((file = concurrentFileListPhase2.po011()) != null) { 


Document doc = DocumentParser.parse (file.getAbsolutePath()); 
List<Word> keywords = new ArrayList<>(doc.getVoc() .values ()); 


for (Word word : keywords) { 


126 第 6 章 运行 分 为 多 阶段 的 任务 : Phaser 类 


Word globalWord = globalVoc.get (word.getWord() ) ; 
word.setDf (globalWord.getDf(), numDocuments); 
} 


Collections.sort (keywords); 


if(keywords.size() > 10) keywords = keywords.subList(0, 10); 
for (Word word : keywords) { 
addKeyword (globalKeywords, word.getWord()); 


} 
System.out .println(name + ": " + parsedDocuments + 
" parsed."); 


对 于 主任 务 和 其 他 任务 而 言 最 后 阶段 将 有 所 不 同 。 在 将 整个 文档 集合 中 的 100 个 最 佳 关 键 字 输 出 
到 控制 台 之 前 , 主任 务 使 用 Phaser 类 的 arriveAndAwaitAdvance() 方 法 等 待 所 有 任务 的 第 二 阶段 
结束 。 最 后 ， 使 用 arriveAndDeregister () 方 法 从 分 段 器 中 注销 。 

剩 下 的 任务 使 用 arriveAndDeregister() 方 法 标记 第 二 阶段 的 结束 、 从 分 段 器 注销 以 及 完成 其 
执行 。 

当 所 有 的 任务 完成 工作 后 ， 都 将 从 分 段 器 中 注销 。 最 后 分 段 器 将 有 0 个 参与 方 ， 并 且 将 进入 终止 


if (main) { 
phaser.arriveAndAwaitAdvance () ; 


Iterator<Entry<String, Integer>> iterator = 
globalKeywords.entrySet ().iterator(); Keyword 
orderedGlobalKeywords[] = new 
Keyword[lglobalKeywords.size()]; 
int index = 0; 
while (iterator.hasNext()) { 
Entry<String, AtomicInteger> entry = iterator.next(); 
Keyword keyword = new Keyword(); 
keyword.setWord(entry.getKey () ) ; 
keyword.setDf (entry.getValue() .get ()); 


orderedGlobalKeywords [index] keyword; 
index++; 

} 

System.out .println("Keyword Size: " + 


orderedGlobalKeywords.length); 


Arrays.parallelSort (orderedGlobalKeywords); 
iTit “COUntes.E 0 
for (int i = 0; i < orderedGlobalKeywords.length; i++){ 
Keyword keyword = orderedGlobalKeywords [i]; 
System.out .println(keyword.getWord() + ": "+ 
keyword.getDf ()); 
Counter+t+; 
i (COUunter "ss.100) 
break; 
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} 


phaser.arriveAndDeregister(); 


System.out .println("Thread " + name + " has finished."); 


} 


2. concurrentKeywordExtraction 类 

ConcurrentKeywordExtraction 类 初始 化 共享 对 象 、 创 建 任务 、 执 行 任务 并 日 等 待 任务 结 
它 实现 的 main() 方 法 可 以 接收 可 选 参数 。 默 认 情 况 下 ， 执 行 的 任务 数 由 Runtime 类 的 
availableProcessors () 方 法 确定 ， 该 方法 返回 可 供 Java 虚拟 机 (Java virtual machine，JVM ) 使 
用 的 硬件 线程 数 。 如 果 接 收 到 一 个 参数 ， 那 么 就 将 其 转换 成 一 个 整 型 值 ， 并 且 将 其 用 作 可 用 处 理 器 数 
量 的 乘 数 ， 以 确定 将 创建 的 任务 数 。 

首先 ， 初始 化 所 有 必要 的 数据 结构 和 参数 。 为 了 填充 这 两 个 ConcurrentLinkedDequ 结构 ， 
我 们 使 用 File 类 的 1istFiles () 方 法 获取 一 个 File 对象 数组 ， 其 中 含有 txt 后 级 的 文件 。 

还 可 以 使 用 不 带 参数 的 构造 函数 创建 Phaser 对 象 ， 这样 所 有 的 任务 必须 在 分 段 器 中 进行 显 式 注 
册 。 相 关 代 码 如 下 : 


public class ConcurrentKeywordExtraction { 


public static void main(String[] args) { 
Date start, end; 


ConcurrentHashMap<String, Word> globalVoc = new 
ConcurrentHashMap<>(); 

ConcurrentHashMap<String, Integer> globalKeywords = new 
ConcurrentHashMap<>(); 

start = new Date(); 

File source = new File("data"); 

File[] files = source.listFiles(f -> 

f .getName() .endsWith(".txt")); 

(于 直人 

System.err.println("The 'data' folder not found!"); 


return; 
} 
ConcurrentLinkedDeque<File> concurrentFileListPhasel = new 
ConcurrentLinkedDeque<> (Arrays.asList (files)); 
ConcurrentLinkedDeque<File> concurrentFileListPhase2 = new 
ConcurrentLinkedDeque<> (Arrays.asList (files)); 


int numDocuments = files.length(); 
TNt' factoOr. ss 1 
if (args.length > 0) { 

factor = Integer.valueOf (args[0]); 


lj 


int numTasks = factor * 
Runtime.getRuntime() .availableProcessors(); 
Phaser phaser = new Phaser(); 


128 第 6 章 运行 分 为 多 阶段 的 任务 : Phaser 类 


Thread[] threads = new Thread[numTasks]; 
KeywordExtractionTask[] tasks = new 
KeywordExtractionTask [numTasks]; 


然后 ， 将 创建 的 第 一 个 任务 其 主 参数 置 为 tue， 其 他 任务 的 主 参数 置 为 false。 每 个 任务 创建 完毕 
后 ， 我 们 使 用 Phaser 类 的 register () 方 法 在 分 段 右 中 注册 一 个 新 的 参与 方 ， 如 下 所 示 : 


for (int i = 0; i < numTasks; i++) { 

tasks[i] = new KeywordExtractionTask (concurrentFileListPhasel, 
concurrentFileListPhase2, phaser, globalVoc, 
globalKeywords, concurrentFileListPhasel.size(), 
"Task" + i, i==0); 

phaser.register(); 

System.out.println(phaser.getRegisteredParties() + " 

tasks arrived to the Phaser."); 


} 
然后 ， 创 建 并 启动 运行 该 任务 的 线程 对 象 ， 并 且 等 待 其 结束 。 


© a 和 
threads [i] 
threads [i] 


0; i < numTasks; i++) { 
= new Thread (tasks[i]); 
-Start(); 


} 


for (int i = 0; i < numTasks; i++) { 
try { 
threads[i] .join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


最 后 ， 在 控制 台 输 出 有 关 执 行情 况 的 统计 结果 ， 包 括 执行 时 间 。 


System.out .println("Is Terminated: " + phaser.isTerminated()); 


end = new Date(); 


System.out .println("Execution Time: " + (end.getTime() - 
start.getTime())); 

System.out .println("Vocabulary Size: " + globalVoc.size()); 

System.out .println("Number of Documents: " + numDocuments); 


6.2.4 ”对 比 两 种 解决 方案 


比较 一 下 关键 字 抽 取 算 法 的 串 行 版 和 并 发 版 。 为 测试 该 算法 ， 采 用 了 含有 100 673 份 文档 的 文档 
集合 。 

我 们 使 用 JMH 框架 执行 算 例 ， 它 允许 在 Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测试 的 框架 是 
很 好 的 解决 方案 ， 因 为 可 以 直接 使 用 currentTimeMillis() 或 nanoTime() 这 样 的 方法 度量 时 间 。 
在 两 种 不 同 的 架构 上 分 别 执 行 这 些 算 例 10 次 。 
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口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 
器 有 两 个 核 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 


有 四 个 核 。 
算法 Intel AMD 
算 ; i i 
“ 因子 执行 时 间 〈 秒 ) 因子 执行 时 间 〈 秒 ) 
串 行 版 N/A 76.252 N/A 168.816 
1 35.092 1 60.740 
并 发 版 2 34.495 2 60.806 
3 34.518 3 58.752 
可 以 得 出 如 下 结论 。 


口 在 两 种 架构 中 ， 相 对 于 串 行 版 而 言 ， 并 发 版 算法 的 性 能 有 所 提升 。 
口 如 果 使 用 的 任务 数 多 于 可 用 硬件 线程 数 ， 并 不 会 得 到 更 好 的 结果 。 存 在 些许 差别 ， 但 是 并 不 


明显 。 
通过 计算 加 速 比 对 比 该 算法 的 并 发 版 本 和 串 行 版 本 ， 如 下 所 示 : 
有 Ty 168.816 
四 人 5 8. 752 | 
ST -76.252 ?21 
34.518 


concurrent 
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遗传 算法 是 基于 自然 选择 原理 的 一 种 自 适应 启发 式 搜索 算法 , 用 于 为 最 优化 问题 和 搜索 问题 生成 
优质 解决 方案 。 遗 传 算法 为 一 个 问题 提供 可 能 的 解决 方案 ， 而 该 问题 被 称 为 个 体 或 者 表现 型 
( phenotype )。 每 个 个 体 都 由 一 组 称 作 染色 体 的 属性 描述 。 通 常 ， 个 体 都 由 一 个 位 序列 表示 ,不 过 也 可 
以 选择 更 加 适合 具体 问题 的 描述 方法 。 

你 还 需要 一 个 适应 度 函 数 ， 用 来 确定 某 个 方案 的 优 劣 。 遗 传 算法 的 主要 目标 是 查找 一 个 能 够 使 该 
函数 最 大 化 或 者 最 小 化 的 解决 方案 。 

遗传 算法 从 问题 的 可 能 方案 集合 开始 。 这 个 可 能 方案 的 集合 被 称 作 种 群 。 该 初始 集合 可 以 随机 生 
成 或 使 用 某 种 启发 函数 获得 更 好 的 初始 解决 方案 。 

一 旦 有 了 初始 种 群 ， 可 以 启动 一 个 含有 三 个 阶段 的 迭代 过 程 。 该 迭代 过 程 的 每 一 步 称 作 一 代 。 每 
一 代 有 如 下 三 个 阶段 。 
口 选择 : 可 以 在 种 群 中 选择 更 好 的 个 体 ， 这 些 个 体 在 适应 度 函 数 中 具有 较 好 的 值 。 
口 交叉 : 对 前 一 步 选 定 的 个 体 进 行 交 叉 ， 以 生成 构成 新 一 代 的 新 个 体 。 这 种 操作 需要 两 个 个 体 
参与 并 且 生 成 两 个 新 的 个 体 。 实 现 这 种 操作 依赖 于 要 解决 的 问题 ， 以 及 所 选择 的 个 体 的 描述 
况 。 


参 
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口 固定 的 代 的 数目 

口 适应 度 函 数 设置 的 预定 值 

口 找到 了 满足 预定 标准 的 解决 方案 
口 时 间 限 币 
口 手动 停止 


SS 


D 突变 : 可 以 应 用 突变 运算 符 更 改 某 个 体 的 值 。 通 常 ， 只 可 以 对 极 少量 的 个 体 执行 该 操作 。 虽 然 
突变 是 一 项 对 于 查找 优质 解决 方案 非常 重要 的 操作 ， 但 是 并 不 应 使 用 该 操作 简化 本 节 的 例子 。 
满足 结束 标准 前 ， 可 以 重复 以 上 操作 。 结 束 标准 可 为 以 下 几 项 。 


通常 ,将 自己 在 上 述 过 程 中 找到 的 最 佳 个 体 在 种 群 外 部 储存 起 来 。 该 个 体 将 成 为 算法 所 建议 的 解 
决 方案 ,而 且 通 常 它 将 成 为 较 好 的 解决 方案 ， 因 为 还 要 产生 新 的 一 代 。 

本 届 将 实现 一 个 遗传 算法 解决 著名 的 旅行 商 问题 (TSP )。 在 该 问题 中 , 有 一 个 城市 集合 和 它们 之 间 
的 距离 集合 , 要 找 出 一 条 最 优 路 线 , 即 在 经 过 全 部 城市 的 同时 旅行 路 线 的 总 距离 最 短 。 与 其 他 例子 相同 ， 
我 们 实现 了 串 行 版 程序 和 使 用 Phaser 类 的 并 发 版 程序 。 应 用 于 TSP 问题 的 遗传 算法 的 主要 特点 如 下 。 


口 个 体 : 一 个 描述 了 城市 遍历 顺序 的 个 体 。 


如 下 表 所 示 ， 有 四 个 城市 的 距离 矩阵 。 


口 交叉 : 在 交叉 操作 之 后 创建 有 效 的 解决 方案 。 访 问 每 个 城市 的 次 数 必须 只 为 一 次 。 
口 适应 度 函 数 : 该 算法 的 主要 目标 是 使 遍历 每 个 城市 的 总 距离 最 短 。 
口 结束 标准 : 将 按照 预定 数目 的 代 执行 该 算法 。 


城市 1 城市 2 城市 3 城市 4 
城市 1 0 11 6 9 
城市 2 7 0 8 2 
城市 3 7 3 0 3 
城市 4 10 9 4 0 


意味 着 城市 2 到 城市 1 的 距离 为 7, 但 是 城市 1 


到 城市 2 的 距离 为 11。(2,4,.3,D) 可 以 为 一 个 个 体 ， 


而 其 适应 度 函数 为 2 到 4、4 到 3、3 到 1、1 到 2 之 间 的 距离 之 和 ， 也 就 是 2+4+7+11=24。 
如 果 想 在 个 体 (1,2,3,4) 和 (1,3,2,4) 之 间 进 行 交 又 ,那么 就 不 能 生成 个 体 (1,2,2,4), 因为 这 样 将 访问 城 


市 2 两 次 。 可 以 生成 (1.2,4,3) 和 (1,3,4,2)。 


为 测试 该 算法 ， 使 用 了 City Distance 数据 集中 的 


57 (kn57_qdist ) 个 城市 。 


6.3.1 公共 类 
这 两 个 版 本 都 用 到 了 以 下 三 个 公共 类 。 


口 DataLoader 类 ， 用 于 从 某 个 文件 加 载 晶 


方法 ， 接 收文 件 名 ， 返 回 一 个 含有 城 


行 之 间 晶 


两 个 例子 ， 分 别 是 15 ( 1aul15_qist ) 个 城市 和 


E 离 矩阵 。 此 处 并 不 给 出 该 类 的 代码 。 它 有 一 个 静态 


E 离 的 int [] [] 和 矩阵 。 距 离 存放 在 一 个 CSV 文件 


中 (在 原始 格式 中 做 了 些许 变换 ) ， 这 样 很 容易 进行 转换 。 
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口 Individual 类 ,该 类 存放 了 种 群 中 某 个 个 体 的 信息 ( 即 针 对 当前 问题 的 可 能 解决 方案 ) 。 
为 了 表示 每 个 个 体 ， 我 们 选择 了 一 个 整 型 数值 的 数组 ， 它 存放 了 访问 不 同城 市 的 顺序 。 
口 ceneticoperators 类 ， 该 类 实现 了 交叉 、 选 择 和 对 种 群 或 者 个 体 的 评估 。 

下 面 看 看 Individual 类 和 Geneticoperators 类 的 详细 介绍 。 

1. Individual 类 

该 类 存放 了 TSP 问题 的 所 有 可 能 解 。 每 个 可 能 的 解 都 称 作 一 个 个 体 ,将 其 描述 称 作 染色 体 。 在 我 
们 的 例子 中 ， 将 每 个 可 能 的 解 都 表示 为 一 个 整 型 数组 。 该 数组 包含 旅行 商 经 过 各 个 城市 的 顺序 。 该 类 
还 有 一 个 整数 值 ， 用 于 存放 适应 度 函 数 的 结果 。 代 码 如 下 : 


public class Individual implements Comparable<Individual> { 
private Integer[] chromosomes; 
private int value; 


我 们 有 两 个 构造 函数 。 第 一 个 接收 必须 访问 的 城市 的 数量 作为 参数 ， 创 建 一 个 空 数组 。 另 一 个 构 
造 函 数 接收 Individual 对 象 作为 参数 ， 并 且 复 制 其 染色 体 ， 如 下 所 示 : 


public Individual (int size) { 
chromosomes=new Integer[sizel]; 


} 


public Individual (Individual other) { 
chromosomes = other.getChromosomes() .clone(); 


} 


我 们 也 实现 了 comparero () 方 法 ， 使 用 适应 度 函 数 的 结果 比较 两 个 个 体 。 
@Override 
public int compareTo(Individual o) { 

return Integer.compare (this.getValue(), o.getValue()); 


} 


最 后 ， 还 引入 了 获取 和 设 定 这 些 属性 的 方法 。 
2. Geneticoperators 类 
这 是 一 个 复杂 类 ， 因 为 它 实现 了 遗传 算法 的 内 部 逻辑 。 正 如 在 本 节 开 始 介绍 的 那样 ， 它 提供 了 进 
行 初始 化 、 选 择 、 交 叉 和 评估 操作 的 方法 。 我 们 将 仅 介 绍 该 类 提供 的 方法 而 非 它们 如 何 实现 ， 以 避免 
陷入 不 必要 的 复杂 细节 中 。 你 可 以 下 载 本 例 的 源 代码 分 析 该 方法 的 实现 。 
该 类 提供 的 方法 有 如 下 几 个 。 
口 initialize(int numberOfIndividuals，int size): 该 方法 创建 了 一 个 种 群 。 该 种 群 
的 个 体 数 由 numpberofIndividuals 参数 确定 。 染 色 体 (本 例 中 就 是 城市 ) 的 数目 由 size 参 
数 确 定 。 该 方法 将 返回 一 个 Ingivigual 对 象 数组 。 它 使 用 initialize(Integer[]) 方 法 
初始 化 每 个 Indaiviaual 对 象 。 


DQ initialize(Integer[] _ chromosomes) : 该 方法 以 随机 方式 初始 化 某 一 个 体 的 染色 体 ， 
生成 合法 的 个 体 ( 即 每 个 城市 只 访问 一 次 ) 。 
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口 selection(Individual[] population): 该 方法 实现 了 选择 操作 ， 获 取 一 个 种 群 的 最 优 
个 体 。 它 用 一 个 数组 返回 这 些 个 体 。 该 数组 的 大 小 将 是 种 群 大 小 的 一 半 。 可 以 测试 其 他 标准 
以 确定 选 定 个 体 的 数目 。 使 用 最 适合 函数 选 定 这 些 个 体 。 

口 crossover (Individual[] selected, int numberOfIndividuals, int size): 该 
方法 接收 一 代 中 被 选 定 的 个 体 作为 参数 ， 并 日 使 用 交叉 操作 生成 下 一 代 的 种 群 。 下 一 代 的 个 
体 数目 将 由 同名 的 参数 ( 即 numperofIndiviqduals ) 确定 。 个 体 的 染色 体 数 目 将 由 size 参 
数 确 定 。 它 使 用 crossover (Individual, Individual, Individual, Individual) 
方法 依据 两 个 选 定 个 体 生 成 两 个 新 个 体 。 

口 crossover (Individual parent1, Individual parent2, Individual individuall, 
Individual individual2): 该 方法 实现 了 交叉 操作 ， 使 用 parentl 个 体 和 parent2 个 
体 生成 下 一 代 的 inaiviauall 个 体 和 indiviaual2 个 体 。 

口 evaluate (Individual[] population，int [][] distanceMatrix): 该 方法 使 用 参数 
中 接收 的 距离 矩阵 ， 将 适应 度 函 数 应 用 到 种 群 的 全 部 个 体 。 最 后 ， 该 方法 还 按照 解决 方式 从 
优 到 劣 的 顺序 对 种 群 进行 排序 ， 使 用 evaluate (Ingivigual，int[]1]) 方 法 评估 每 个 个 体 。 

口 evaluate(Ingdividual ingdivigdual，int[][] distanceMatrix): 该 方法 将 适应 度 函 
数 应 用 到 某 个 体 。 

借助 该 类 及 其 方法 ， 可 以 满足 实现 遗传 算法 解决 TSP 问题 的 所 有 需求 。 


6.3.2 ” 串 行 版 本 


我 们 使 用 如 下 两 个 类 实现 该 算法 的 串 行 版 本 。 

口 serialGeneticAlgorithm 类 : 用 于 实现 该 算法 。 
口 serialMain 类 : 根据 输入 参数 执行 算法 并 且 度 量 执行 时 间 。 
下 面 详细 分 析 一 下 这 两 个 类 。 

1. serialGeneticAlgorithm 类 

该 类 实现 了 遗传 算法 的 串 行 版 。 从 内 部 来 看 ， 它 用 到 了 如 下 四 个 属 ! 
口 含有 所 有 城市 之 间距 离 的 距离 矩阵 。 

口 代 的 数目 。 

口 种 群 中 的 个 体 数 。 

口 每 个 个 体 中 的 染色 体 数目 。 

该 类 也 有 一 个 初始 化 所 有 属性 的 构造 函数 。 


private int[][] distanceMatrix; 


el 
号 


Private int numberOfGenerations; 
private int numberOfIndividuals; 


private int size; 


public SerialGeneticAlgorithm(int[][] distanceMatrix, 
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int numberOfGenerations, int numberofIndividuals) { 
this.distanceMatrix = distanceMatrix; 
this.numberOfGenerations = numberOfGenerations; 
this.numberOfIndividuals = numberOfIindividuals; 
size = distanceMatrix.length; 


} 
该 类 的 主 方法 是 calculate() 方 法 。 首 先 ,使 用 initialize() 方 法 来 创建 初始 种 群 。 然 后 ， 
评估 初始 种 群 并 且 获 取 其 最 优 个 体 作为 算法 的 第 一 个 解 。 


public Individual calculate() { 
Individual best; 


Individual[] population = GeneticOperators.initializel( 
numberOfIndividuals, size); 
GeneticOperators.evaluate(population, distanceMatrix); 


best = population[0]; 


然后 ， 执 行 由 numberofGenerations 属性 判定 的 循环 。 在 每 次 循环 中 ,使 用 selection() 方 
法 获取 选 定 的 个 体 ， 使 用 crossover () 方 法 计算 下 一 代 、 评 估 新 一代 ， 而 且 如 果 新 一 代 的 最 优 解 优 
于 到 目前 为 止 最 好 的 个 体 ， 那 么 替换 该 个 体 。 循 环 结束 后 ， 返 回 最 优 个 体 作 为 算法 给 出 的 解 。 6 


for (int i = 1; i <= numberOfGenerations; i++) { 
Individual[] selected = 
GeneticOperators.selection(population); 
population = GeneticOperators.crossover (selectedqd, 
numberOfIndividuals, size); 
GeneticOperators.evaluate(population, distanceMatrix); 
if (population[0] .getValue() < best.getValue()) { 
best = population[0]; 


} 


return best; 


} 


2. serialMain 类 

该 类 针对 本 节 用 到 的 两 个 数据 集 执行 遗传 算法 ， 即 含有 15 个 城市 的 lau15 和 含有 57 个 城市 的 
kn57。 

main () 方 法 必须 接收 两 个 参数 。 第 一 个 参数 是 将 要 创建 的 代 的 数目 , 而 第 二 个 参数 是 希望 每 一 代 
应 有 的 个 体 数 目 。 


public class SerialMain { 


public static void main(String[] args) { 


Date start, end; 


int generations = Integer.valueOf (args [0]); 
int individuals = Integer.valueOf (args [1]); 
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在 每 个 例子 中 , 均 使 用 DataLoader 类 中 的 1oad() 方 法 加 载 距离 矩阵 ,创建 SerialGenetic- 
Algorith 对 象 ， 在 执行 calculate() 方 法 的 同时 度量 时 间 ， 并 且 在 控制 台 输 出 执行 时 间 和 结果 。 


for (String name : new String[] { "laul5_ dist", "kn57_dist" }) { 
int[][] distanceMatrix = DataLoader.load(Paths.get ("data", 
name + ".txt")); 


SerialGeneticAlgorithm serialGeneticAlgorithm = new 
SerialGeneticAlgorithm(distanceMatrix, generations, 
individuals); 

start = new Date(); 

Individual result = serialGeneticAlgorithm.calculate(); 

end = new Date(); 


Re 

System.out .println("Example:"+name) 

System.out .brintln("Generations: " + generations); 

System.out .println("Population: " + individuals); 

System.out .println("Execution Time: " + (end.getTime() - 
start.getTime())); 

System.out .println("Best Individual: " + result); 

System.out .println("Total Distance: " + result.getValue()); 

SYVSCEm oubs rintln (Seesesesereeere esses 


6.3.3 ”并 发 版 本 


我 们 实现 了 遗传 算法 并 发 版 本 的 不 同类 ， 如 下 所 示 。 
口 sharedData 类 存放 了 所 有 将 在 任务 之 间 共 享 的 对 象 。 
口 GeneticPhaser 类 扩展 了 Phaser 类 并 且 重 载 了 它 的 onadqvance () 方 法 ， 以 便当 所 有 任务 
都 完成 第 一 阶段 后 执行 代码 。 
口 concurrentGeneticTask 类 实现 了 那些 将 用 于 执行 遗传 算法 各 个 阶段 的 任务 。 
口 ConcurrentGeneticAlgorithm 类 使 用 前 面 的 类 实现 遗传 算法 的 并 发 版 本 。 
口 concurrentMain 类 将 在 两 个 数据 中 集 测试 遗传 算法 的 并 发 版 本 。 
从 内 部 来 看 ，concurrentGeneticTask 类 将 执行 三 个 阶段 。 第 一 阶段 是 选择 阶段 , 而且 只 能 由 
一 个 任务 执行 。 第 二 个 阶段 是 交叉 阶段 ， 所 有 的 任务 都 将 使 用 选 定 的 个 体 来 构建 新 的 一 代 。 而 最 后 一 
个 阶段 是 评估 阶段 ， 所 有 任务 都 将 对 新 一 代 个 体 进行 评 佑 。 
让 我 们 详细 来 看 这 其 中 的 每 一 个 类 。 
1. sharedData 类 
如 前 所 述 ， 该 类 包括 由 多 任务 共享 的 所 有 对 象 。 其 中 包括 如 下 内 容 。 
口 种 群 数组 ， 其 中 含有 某 一 代 的 全 部 个 体 。 
口 精 选 数组 ， 其 中 含有 精 选 的 个 体 。 
口 一 个 名 为 index 的 原子 整 型 变量 。 这 是 唯一 线程 安全 的 对 象 ， 用 于 指明 一 个 任务 要 生成 或 处 
理 的 个 体 的 索引 。 
口 所 有 各 代 中 的 最 优 个 体 ， 将 作为 算法 的 解 返回 。 
口 距离 矩阵 ， 其 中 含有 城市 之 间 的 距离 。 
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所 有 的 对 象 都 将 被 所 有 线程 共享 ， 但 我 们 只 需要 用 到 一 个 并 发 数据 结构 。index 是 唯一 被 所 有 任 
务 高 效 共 享 的 属性 。 其 余 对 象 ， 要 么 仅 供 读 取 ( 例如 距离 矩阵 )， 要 么 每 个 任务 将 访问 对 象 〈 例如 种 
群 数组 和 精 选 数组 ) 的 不 同 部 分 ， 并 不 需要 使 用 并 发 数据 结构 或 者 同步 机 制 避免 竞争 条 件 。 


public class SharedData { 


private Individual[] population; 
private Individual selected[]; 
private AtomicInteger index; 
private Individual best; 

private int[][] distanceMatrix; 


} 
该 类 还 含有 用 来 获取 和 设 定 这 些 属性 取 值 的 方法 。 
2. GeneticPhasez 类 
我 们 需要 在 任务 的 阶段 变化 时 执行 代码 ， 因 此 必须 实现 自己 的 分 段 器 并 日 重 载 onadqvance () 方 
， 在 所 有 的 参与 方 都 完成 某 个 阶段 且 即 将 开始 执行 下 一 阶段 时 执行 该 方法 。GeneticPhaser 类 就 
现 了 这 样 一 个 分 段 器 。 它 存储 了 需要 用 到 的 sharedData 对 象 ,并 且 将 其 作为 构造 函数 的 参数 之 一 。 


public class GeneticPhaser extends Phaser { 


法 
实 


private SharedData data; 


public GeneticPphaser (int parties, SharedData data) { 
super (parties); 
this.data=data; 


onAdvance () 方 法 将 接收 分 段 器 的 阶段 编号 和 已 注册 参与 方 的 编码 作为 参数 。 从 内 部 来 看 , 该 分 
段 器 用 整数 表示 阶段 编号 ， 每 次 阶段 变化 时 该 值 都 会 按 顺 序 增长 。 相 反 ， 我 们 的 算法 只 有 三 个 阶段 ， 
将 被 多 次 执行 。 必 须 将 分 段 带 的 阶段 编号 转换 成 遗传 算法 的 阶段 编号 ， 这 样 才 能 知道 任务 究 竞 是 在 执 
行 选择 阶段 、 交 叉 阶 段 还 是 评估 阶段 。 为 实现 这 一 目的 ， 我们 计算 分 段 器 的 阶段 编号 除 以 3 的 余数 ， 
如 下 所 示 : 


protected boolean onAdvance(int phase, int registeredParties) { 
int realPhase=phases%3; 
if (registeredParties>0) { 
switch (realPhase) { 
case 0: 
case 1: 
data.getIndex().set (0); 
break; 
case 2: 
Arrays.sort (data.getPopulation()); 
if (data.getPopulation() [0] .getValue() < 
data.getBest().getValue()) { 
data.setBest (data.getPopulation()[0]); 
} 


break; 
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return false; 
} 
return true; 


} 

如 果 余 数 为 0, 任务 完成 了 选择 阶段 并 且 准 备 执行 交叉 阶段 。 使 用 0 值 对 该 索引 对 象 进行 初始 化 。 

如 果 余 数 为 1， 任务 完 成 交叉 阶段 并 且 准 备 执行 评估 阶段 。 使 用 0 值 来 初始 化 该 索引 对 象 。 

最 后 ， 如 果 余 数 为 2， 任 务 已 经 完成 了 评估 阶段 且 准 备 再 次 开始 选择 阶段 。 我 们 基于 适应 度 函 数 
对 种 群 进行 排序 ， 并 且 如 果 必 要 ， 还 要 更 新 最 优 个 体 。 

请 注意 ， 这 种 方法 只 能 由 任务 中 一 个 独立 的 线程 执行 。 它 在 前 一 阶段 结束 时 ， 由 最 后 一 个 任务 的 
线程 执行 (在 arriveAngAwaitAdvance() 调 用 的 内 部 )。 其 他 任务 将 休眠 并 且 等 待 分 段 器 。 

3. ConcurrentGeneticTask 类 

该 类 实现 了 那些 协作 执行 遗传 算法 的 任务 。 这 些 任 务 执行 了 算法 的 三 个 阶段 ( 选择 .交叉 和 评估 )。 
选择 阶段 仅 由 一 个 任务 执行 〈 称 为 主任 务 )， 而 所 有 任务 都 将 执行 剩 下 的 阶段 。 

从 内 部 来 看 ， 该 类 用 到 了 四 个 属性 。 
口 一 个 GeneticPhasez 对 象 ,用 于 在 每 个 阶段 结束 时 进行 任务 同步 。 
口 一 个 shareaData 对 象 ， 用 于 访问 共享 数据 。 
口 必须 计算 的 代 的 数目 。 
口 用 于 表明 是 否 为 主任 务 的 布尔 标志 。 
所 有 属性 将 在 该 类 的 构造 函数 中 初始 化 。 


public class ConcurrentGeneticTask implements Runnable { 
private GeneticPhaser phaser; 
private SharedData data; 
private int numberOfGenerations; 
private boolean main; 


public ConcurrentGeneticTask (GeneticPhaser phaser, int 
numberOfGenerations, boolean main) { 
this.phaser = phaser; 

this.numberOfGenerations = numberOfGenerations; 
this.main = main; 

this.data = phaser.getData(); 

} 


run() 方 法 实现 了 遗传 算法 的 逻辑 。 它 有 一 个 生成 指定 代 的 循环 。 正 如 前 面 提 到 的 ， 只 有 主任 务 
会 执行 选择 阶段 ,其 他 任务 将 使 用 arriveAngdawaitAgdvance() 方 法 等 待 该 阶段 结束 ,参看 如 下 代码 。 


QOverride 
public void run() { 


Random rm = new Random(System.nanoTime () ) ; 
for (int i = 0; i < numberOfGenerations; i++) { 
if (main) { 
data.setSelected (GeneticOperators.selection(data 
.getPopulation())); 
} 


phaser.arriveAndAwaitAdvance (); 
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第 二 阶段 是 交叉 阶段 。 使 用 在 sharedData 类 中 存放 的 AtomicInteger 变量 索引 获得 种 群 数组 
( 每 个 任务 都 会 计算 ) 中 的 下 一 个 位 置 。 如 前 所 述 ， 交 叉 操 作 生成 了 两 个 新 的 个 体 ， 因 此 每 个 任务 首 
先 在 种 群 数组 中 保留 两 个 位 置 。 为 达到 这 一 目的 , 使 用 getanaadaaq (2) 方 法 返回 变量 的 实际 值 ， 并 日 
按照 两 个 单位 的 步 长 递增 其 取 值 。AtomicInteger 变量 是 一 个 原子 变量 ， 因 此 并 没有 用 到 任何 同步 
机 制 ， 这 是 原子 变量 的 固有 属性 。 人 参看 下 面 的 代码 。 

// 交叉 阶段 

int individualIndex; 

do { 
individualIndex = data.getIindex() .getAndAdd (2); 


if (individualIndex < data.getPopulation().lengtn) { 
int secondIndividual = individualIndex++; 


int plIndex = rm.nextInt (data.getSelected().length); 
int p2Index; 


Skene t 
p2Index = rm.nextInt (data.getSelected().length); 

} while (plIndex == p2Index); 

Individual parent1 = data.getSelected() [plIndex]; 

Individual parent2 = data.getSelected() [p2Index]; 

Individual individuall = data.getPopulation() 
[individualIndex]; 

Individual individual2 = data.getPopulation() 
[secondIndividuall]; 


GeneticOperators.crossover (parent1, parent2, 
individuall, individual2); 


} 


} while (individualIndex < data.getPopulation().length); 
phaser.arriveAndAwaitAdvance () ; 


新 种 群 的 所 有 个 体 生成 之 后 ， 各 任务 将 使 用 arriveandawaitadvance () 方 法 同步 该 阶段 的 末尾 。 

最 后 阶段 是 评估 阶段 。 我 们 再 次 使 用 AtomicInteger 索引 。 每 个 任务 都 获取 该 变量 的 实际 值 ， 
该 值 代 表 了 个 体 在 种 群 中 的 位 置 ， 并 且 使 用 getAndIncrement () 值 增加 取 值 。 一 旦 对 所 有 个 体 的 评 
佑 结束， 就 可 使 用 arriveandqawaitaAdvance () 方 法 同步 该 阶段 的 末尾 。 请 记 住 , 所 有 任务 都 完成 该 
阶段 后 ，GeneticPhaser 类 将 执行 排列 种 群 数组 的 代码 ， 如 果 有 必要 ， 还 要 更 新 最 优 个 体 变 量 ， 如 
下 所 示 : 


// 评估 阶段 
do { 
individualIndex = data.getIindex() .getAndIincrement () ; 
if (individualIndex < data.getPopulation().lengtn) { 
GeneticOperators.evaluate(data.getPopulation() 
[individualIndex], data.getDistanceMatrix()); 


} 
} while (individualIndex < data.getPopulation().length); 
phaser.arriveAndAwaitAdvance(); 


} 


phaser.arriveAndDeregister (); 


138 第 6 章 运行 分 为 多 阶段 的 任务 : Phaser 类 


最 后 ， 当 所 有 的 代 都 计算 完毕 后 , 各 任务 使 用 arriveandperegistet () 方 法 表示 执行 完毕 ， 这 
举 分 段 器 就 进入 终止 状态 。 

4. concurrentGeneticAlgorithm 类 

该 类 是 遗传 算法 的 外 部 接口 。 从 内 部 来 看 ， 该 类 创建 、 启 动 那些 计算 不 同 代 的 任务 ， 并 且 等 待 这 
些 任务 完成 。 该 类 用 到 了 四 个 属性 : 代 的 数目 、 每 一 代 的 个 体 数目 、 每 个 个 体 的 染色 体 数 目 以 及 距离 
和 矩阵， 如 下 所 示 : 


public class ConcurrentGeneticAlgorithm { 


菲 


Private int numberOfGenerations; 
private int numberOfIndividuals; 
private int[][] distanceMatrix; 
private int size; 


public ConcurrentGeneticAlgorithm(int[][] distanceMatrix, int 
numberOfGenerations, int numberOfIndividuals) { 
this.distanceMatrix=distanceMatrix; 
this.numberOfGenerations=numberOfGenerations; 
this.numberOfIndividuals=numberOfIndividuals; 
size=distanceMatrix.length; 


} 
calculate() 方 法 执行 遗传 算法 并 且 返 回 最 优 个 体 。 首先 , 它 使 用 initialize() 方 法 创建 最 初 
的 种 群 并 对 该 种 群 进行 评估 ,同时 创建 并 初始 化 sharedData 对 象 , 其 中 含有 所 有 必要 的 数据 ， 如 下 
所 示 : 


public Individual calculate() { 


Individual[] population= 
GeneticOperators.initialize (numberOfIndividuals,size); 
GeneticOperators.evaluate(population,distanceMatrix); 


SharedData data=new SharedData(); 
data.setPopulation(population); 
data.setDistanceMatrix(distanceMatrix); 
data.setBest (population[0]); 


然后 ,创建 各 个 任务 。 使 用 计算 机 可 用 的 硬件 线程 数 作为 将 要 创建 的 任务 数 ,该 数目 使 用 Runtime 
类 的 availableProcessors () 方 法 返回 我们 还 创建 了 GeneticPhaser 对 象 同步 这 些 任务 的 执行 ， 
如 下 所 示 : 


int numTasks=Runtime.getRuntime() .availableProcessors(); 
GeneticPhaser phaser=new GeneticPhaser (numTasks,data); 


ConcurrentGeneticTask[] tasks=new ConcurrentGeneticTask[numTasks]; 
Thread[] threads=new Thread[numTasks]; 


tasks[0]=new ConcurrentGeneticTask (phaser, numberOfGenerations, 
true); 
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for (int i=1; i< numTasks; i++) { 
tasks[i]=new ConcurrentGeneticTask (phaser, numberOfGenerations, 
false); 


} 
然后 ， 创 建 Thread 对 象 执行 这 些 任务 ， 启 动 任务 并 且 等 待 其 执行 结束 。 最 后 ， 返 回 存放 于 
ShareData 对 象 的 最 优 个 体 ， 如 下 所 示 


for (int i=0; i<numTasks; i++) { 
threads[i]=new Thread (tasks [i]); 
threads[i].start(); 
} 


for (int i=0; i<numTasks; i++) { 
try { 
threads [i] .join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


return data.getBest (); 
} 
} 


5. concurrentMain 类 
该 类 针对 本 节 用 到 的 两 个 数据 集 执行 遗传 算法 ， 即 含有 15 个 城市 的 1au15 和 含有 57 个 城市 的 
kn57。 该 类 的 代码 与 serialMain 类 相似 ， 只 不 过 使 用 concurrentGeneticaAlgorithm 而 非 


SerialGeneticAlgorithmo 


6.3.4 对比 两 种 解决 方案 


现在 对 两 种 方案 进行 测试 ， 看 看 哪 一 种 具有 更 好 的 性 能 。 如 前 所 述 ， 使 用 了 来 自 City Distance 
Datasets 的 两 个 数据 集 一 含有 15 个 城市 的 lau15 和 含有 57 个 城市 的 kn57。 我 们 也 测试 了 不 同 规 
模 的 种 群 (100、1000 和 10 000 个 个 体 )， 以 及 不 同 数目 的 代 (10、100 和 1000 )。 

我 们 使 用 JMH 框架 ( 请 查看 名 为 “Code Tools: jmh” 的 文章 ) 执行 算 例 ， 这 样 可 以 在 Java 中 实现 微 
型 基准 测试 。 使 用 面向 基准 测试 的 框架 是 很 好 的 解决 方案 ， 因 为 可 以 直接 使 用 currentTimeMillis () 
或 nanoTime () 方 法 度量 时 间 。 在 两 种 不 同 的 架构 上 分 别 执行 这 些 算 例 10 次 。 
口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16 GB 的 RAM。 该 处 理 
器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 我 们 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 

有 四 个 核 。 

1. au15 数据 集 
第 一 个 数据 集 的 执行 时 间 如 下 (单位 : 毫秒 )。 
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AMD 架构 和 
100 1000 10 000 
代 串 行 版 并 发 版 串 行 版 并 发 版 串 行 版 并 发 版 
10 11.59 27.15 53.98 54.40 208.67 121.10 
100 42.80 58.61 180.24 96.54 1849.15 904.76 
1000 148.01 117.93 1412.81 517.14 15040.81 5660.30 
Intel 架构 人 
100 1000 10 000 
代 串 行 版 并 发 版 串 行 版 并 发 版 串 行 版 并 发 版 
10 9.27 15.79 28.67 29.12 117.01 93.29 
100 45.53 25.08 115.41 87.38 1041.76 756.16 
1000 94.92 74.70 724.77 440.36 7867.56 4464.52 
2. Kn57 数据 集 
第 二 个 数据 集 的 执行 时 间 如 下 (单位 : 毫秒 )。 
AMD 架构 a 
100 1000 10 000 
代 串 行 版 并 发 版 串 行 版 并 发 版 串 行 版 并 发 版 
10 25.29 31.33 104.72 124.88 889.07 347.62 
100 95.21 76.80 795.64 280.20 8479.72 3052.44 
1000 778.21 267.67 7913.98 2524.28 83 131.09 29 417.48 
Intel 架构 a 
100 1000 10 000 
代 串 行 版 并 发 版 串 行 版 并 发 版 串 行 版 并 发 版 
10 20.51 32.04 69.27 86.12 449.80 274.99 
100 57.46 56.54 418.39 224.93 4423.52 2183.10 
1000 417.38 221.47 4069.09 2161.46 41 714.95 21 858.51 
3. 结论 
在 两 种 架构 上 ， 该 算法 针对 两 个 数据 集 的 表现 情况 相似 。 你 会 发 现 ， 当 个 体 数目 和 代 的 数目 都 较 
少时 ,算法 的 串 行 版 本 执行 时 间 较 优 ， 而 当 个 体 数 目 或 代 的 数目 增加 时 ， 并 发 版 本 将 会 有 更 好 的 吞吐 


量 。 以 代 的 数目 为 1000 且 个 体 数 目 为 10 000 的 kn57 数据 集 为 例 ， 可 得 出 加 速 比 如 下 。 


Ty 83131.09 
人 人 29 417.48 
Jos 41 714.95 
Sintel 到 = 1.91 
7 21 858.51 
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6.4 小结 


本 章 介 绍 了 Java 并 发 API 提供 的 最 强大 的 同步 机 制 之 一 : 分 段 器 。 它 的 主要 目的 是 为 执行 分 为 多 
阶段 的 算法 的 任务 提供 同步 。 在 所 有 任务 都 完成 上 一 阶段 之 前 ， 任 何 任务 都 不 能 开始 执行 下 一 阶段 。 

分 段 器 必须 知道 任务 要 进行 同步 的 任务 数量 。 必 须 使 用 构造 函数 、bulkRegister () 方 法 或 
register () 方 法 在 分 段 器 中 注册 任务 。 

分 段 器 可 以 以 不 同方 式 同步 任务 。 最 常见 的 方式 是 使 用 arriveAndAwaitAdvance() 方 法 告诉 
分 段 器 ， 任 务 已 经 完成 了 一 个 阶段 的 执行 ， 要 继续 执行 下 一 阶段 。 该 方法 将 休眠 该 线程 直到 剩 下 的 任 
务 都 完成 当前 阶段 为 止 。 不 过 ， 也 可 以 使 用 其 他 方法 同步 任务 。arrive () 方 法 用 于 通知 分 段 器 当前 
阶段 已 经 完成 ， 但 是 不 会 等 待 剩 下 的 任务 (使 用 该 方法 时 要 非常 小 心 )。 arriveAndDeregister() 
方法 用 于 告知 分 段 器 当前 阶段 已 经 完成 ， 而且 并 不 想 在 分 段 器 中 继续 等 待 ( 通常 是 因为 已 经 完成 了 任 
务 )。 最 后 ，awaitAdvance() 方 法 可 用 于 等 待 当 前 阶段 结束 。 

通过 使 用 onAgvance () 方 法 ， 可 以 控制 阶段 变化 ， 并 且 在 所 有 任务 都 完成 当前 阶段 旦 准备 开始 
新 阶段 时 执行 代码 。 该 方法 在 两 个 阶段 执行 的 间隙 被 调用 ， 并 且 接 收 阶段 的 编号 和 参与 者 在 分 段 器 中 
的 编号 作为 参数 。 你 可 以 扩展 Phaser 类 ， 并 且 重 载 该 方法 以 在 两 个 阶段 之 间 执 行 代码 。 

分 段 器 可 以 处 于 活动 和 终止 两 种 状态 。 同 步 任 务 时 进入 活动 状态 ; 完成 自己 的 工作 时 进入 终止 状 
态 。 所 有 参与 方 调用 arriveAndDeregister() 方 法 时 或 者 onAdvance () 方 法 返回 true 值 (默认 
情况 下 ， 总 是 返回 false ) 时 ,分 段 器 将 进入 终止 状态 。 当 Phaser 类 处 于 终止 状态 时 ， 它 不 再 接收 
新 的 参与 方 ， 而 且 同 步 方 法 将 立即 返回 。 

使 用 Phaser 类 实现 了 两 个 算法 : 关键 字 抽 取 算 法 和 遗传 算法 。 在 这 两 个 例子 中 ， 与 算法 的 串 行 
版 本 相 比 ， 并 发 版 本 在 吞吐 量 上 有 了 重要 的 增长 。 

下 一 章 将 介绍 如 何 使 用 另 一 个 Java 并 发 框架 解决 特殊 类 型 的 问题 。 这 就 是 Fork/Join 框架 ， 用 于 
以 并 发 方式 执行 那些 可 以 采用 分 治 算法 进行 求解 的 问题 。 它 基于 一 个 采用 了 特殊 工作 窃取 算法 的 执行 
器 ， 这 种 算法 能 够 使 执行 器 的 性 能 最 大 化 。 


上 
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第 3~5 章 介 绍 了 如 何 使 用 执行 器 这 种 机 制 来 改进 执行 大 量 并 发 任务 的 并 发 应 用 程序 的 性 能 ,Java 7 
并 发 API 通过 Fork/Join 框架 引入 了 一 种 特殊 的 执行 器 。 该 框架 的 设计 目的 是 针对 那些 可 以 使 用 分 治 设 
计 范 式 来 解决 的 问题 ， 实 现 最 优 的 并 发 解决 方案 。 本 章 将 介绍 以 下 主题 。 

口 Fork/Join 框架 简介 。 

口 第 一 个 例子 : k-means 聚 类 算法 。 
口 第 二 个 例子 : 数据 筛选 算法 。 
口 第 三 个 例子 : 归并 排序 算法 。 


7.1 Fork/Join 框架 简介 


执行 器 框架 是 在 Java5 中 引入 的 ， 它 提供 了 一 种 执行 并 发 任务 的 机 制 ， 而 无 须 创 建 、 启 动 和 结 
线程 。 该 框架 采用 了 一 个 线程 池 ， 该 线程 池 可 以 执行 你 发 送 给 执行 器 的 任务 ， 并且 针对 多 个 任务 重用 
这 些 线程 。 这 种 机 制 为 程序 设计 人 员 提 供 了 如 下 便利 。 

口 并 发 应 用 程序 的 编程 更 加 简单 ， 因 为 不 再 需要 担心 线程 的 创建 。 

口 控制 执行 器 和 应 用 程序 所 使 用 的 资源 更 加 简单 。 你 可 以 创建 一 个 仅 使 用 预定 数目 线程 的 执行 

器 。 如 果 发 送 较 多 的 任务 ， 则 执行 器 会 将 它们 先 存放 在 一 个 队列 中 ， 直 到 有 线程 可 用 为 止 。 

口 执行 器 通过 重用 线程 缩减 了 创建 线程 所 引入 的 开销 。 从 内 部 来 看 ， 它 管理 了 一 个 线程 池 ， 
用 线程 来 执行 多 个 任务 。 

分 治 算法 是 一 种 非常 流行 的 设计 方法 。 为 了 采用 这 种 方法 解决 问题 , 要 将 问题 划分 为 较 小 的 问题 。 
可 以 采用 递归 方式 重复 该 过 程 ， 直 到 需要 解决 的 问题 变 得 很 小 ,可 以 直接 解决 。 必 须 很 小 心地 选择 可 
直接 解决 的 基本 用 例 ， 问 题 规模 选择 不 当 会 导致 糟糕 的 性 能 。 这 种 问题 可 以 使 用 执行 器 解决 ,但 是 为 
了 更 高 效 地 解决 问题 ，Java 7 并 发 API 引 入 了 Fork/Join 框架 。 

该 框架 基于 ForkJoinPool 类 ， 该 类 是 一 种 特殊 的 执行 器 ， 具 有 fork () 方 法 和 join () 方 法 两 
个 操作 (以 及 它们 的 不 同 变 体 )， 以 及 一 个 被 称 作 工作 窃取 算法 的 内 部 算法 。 本 章 将 通过 实现 下 述 三 
个 例子 ， 介 绍 Fork/Join 框架 的 基本 特征 、 局 限 性 和 组 件 。 


Is 
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口 用 于 对 文档 集 进 行 聚 类 的 k-means 聚 类 算法 。 
口 一 个 获取 满足 特定 标准 的 数据 的 数据 筛选 算法 。 
口 以 高 效 方式 对 大 型 数据 分 组 进行 排序 的 归并 排序 算法 。 


7.1.1 Fork/Join 框架 的 基本 特征 


如 前 所 述 , Fork/Join 框架 必须 用 于 解决 基于 分 治 方法 的 问题 。 必须 将 原始 问题 划分 为 较 小 的 问题 ， 
直到 问题 很 小 ， 可 以 直接 解决 。 有 了 这 个 框架 ， 待 实现 任务 的 主 方法 便 如 下 所 示 : 

if ( problem.size() > DEFAULT_SIZE) { 
divideTasks (); 
executeTask(); 
taskResults=joinTasksResult (); 
return taskResults; 
else { 
taskResults=solveBasicProblem(); 
return taskResults; 

} 

该 方法 最 大 的 好 处 是 可 以 高 效 分 割 和 执行 子 任务 ， 并 且 获 取 子 任务 的 结果 以 计算 父 任 务 的 结果 。 
该 功能 由 ForkJoinTask 类 提供 的 如 下 两 个 方法 支持 。 

口 fork() 方 法 : 该 方法 可 以 将 一 个 子 任务 发 送 给 Fork/Join 执行 器 。 
口 join() 方 法 : 该 方法 可 以 等 待 一 个 子 任务 执行 结束 后 返回 其 结果 。 

你 将 在 下 文 的 例子 中 看 到 ， 这 些 方法 都 有 不 同 的 变 体 。Fork/Join 框架 还 有 男 一 个 关键 特性 ， 即 工 
作 和 窃取 算法 。 该 算法 确定 要 执行 的 任务 。 当 一 个 任务 使 用 join() 方 法 等 待 某 个 子 任务 结束 时 ， 执 行 
该 任务 的 线程 将 会 从 任务 池 中 选取 男 一 个 等 待 执行 的 任务 并 且 开 始 执 行 。 通过 这 种 方式 ，Fork/Join 执 
行 器 的 线程 总 是 通过 改进 应 用 程序 的 性 能 来 执行 任务 。 

Java 8 在 Fork/Join 框架 中 提供 了 一 种 新 特性 。 现 在 ， 每 个 Java 应 用 程序 都 有 一 个 默认 的 ForkJoinPool， 
称 作 公 用 池 。 可 以 通过 调用 静态 方法 ForkJoinPool . commonPool () 获得 这 样 的 公用 池 ， 而 不 需要 采用 
显 式 方法 创建 (尽管 可 以 这 样 做 )。 这 种 默认 的 Fork/Join 执行 器 会 自动 使 用 由 计算 机 的 可 用 处 理 器 确定 
的 线程 数 。 可 以 通过 更 改 系统 属性 值 ( java.util.concurrent .ForkJoinPool .common.parallelism) 
来 修改 这 一 默认 行为 。 

Java API 的 有 些 功能 可 使 用 Fork/Join 框 架 来 实现 并 发 操作 ,例如 ,Arrays 类 中 的 parallelsort () 
方法 (可 以 以 并 行 方 式 进行 数组 排序 ) 以 及 Java 8 中 引入 的 并 行 流 (将 在 第 8 章 和 第 9 章 中 介绍 ) 都 
用 到 了 该 框架 。 


一 


7.1.2 ”Fork/Join 框架 的 局 限 性 
尽管 Fork/Join 框架 可 以 用 于 解决 一 些 特定 类 型 的 问题 ,但 是 解决 问题 时 必须 要 考虑 到 它 的 局 限 
性 ， 主 要 有 如 下 几 个 方面 。 
口 不 再 进行 细 分 的 基本 问题 的 规模 既 不 能 过 大 也 不 能 过 小 。 按 照 Java API 文档 的 说 明 ， 该 基本 
问题 的 规模 应 该 介 于 100 到 10 000 个 基本 计算 步骤 之 间 。 
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口 数据 可 用 前 ， 不 应 使 用 阻塞 型 VO 操作 ， 例 如 读 取 用 户 输入 或 者 来 自 网 络 套 接 字 的 数据 。 这 
样 的 操作 将 导致 CPU 核资 源 空 闲 ， 降 低 并 行 处 理 等 级 ， 进 而 使 性 能 无 法 达到 最 佳 。 

口 不 能 在 任务 内 部 抛 出 校 验 异常 ， 必 须 编 写 代码 来 处 理 异常 ( 例如， 陷入 未 经 校 验 的 
RuntimeException )。 在 后 面 的 例子 中 你 将 看 到 ， 对 于 未 校 验 异 常 有 一 种 特殊 的 处 理 方式 。 


7.1.3 ”Fork/Join 框架 的 组 件 


Fork/Join 框架 包括 四 个 基本 类 。 

口 ForkJoinPool 类 : 该 类 实现 了 Executor 接口 和 ExecutorService 接口 ， 而 执行 
Fork/Join 任务 时 将 用 到 Executor 接口 。Java 提供 了 一 个 默认 的 ForkJoinPool 对 象 〈 称 作 
公用 池 ) ， 但 是 如 果 需 要 ， 你 还 可 以 创建 一 些 构造 函数 。 你 可 以 指定 并 行 处 理 的 等 级 ( 运行 

并 行 线程 的 最 大 数目 ) 。 默 认 情 况 下 ， 它 将 可 用 处 理 器 的 数目 作为 并 发 处 理 等 级 。 

口 ForkJoinTask 类 : 这 是 所 有 Fork/Join 任 务 的 基本 抽象 类 。 该 类 是 一 个 抽象 类 ， 提 供 了 fork () 
方法 和 join () 方 法 ， 以 及 这 些 方法 的 一 些 变 体 。 该 类 还 实现 了 Future 接口 ， 提 供 了 一 些 方 

法 来 判断 任务 是 否 以 正常 方式 结束 ， 它 是 否 被 撤销 ， 或 者 是 否 抛 出 了 一 个 未 校 验 异 常 。 
RecursiveTask 类 、RecursiveAction 类 和 countedComplet r 类 提供 了 compute() 抽 
象 方法 。 为 了 执行 实际 的 计算 任务 ， 该 方法 应 该 在 子 类 中 实现 。 

口 RecursiveTask 类 : 该 类 扩展 了 ForkJoinTask 类 。RecursiveTask 也 是 一 个 抽象 类 ， 而 

且 应 该 作为 实现 返回 结果 的 Fork/Join 任务 的 起 点 。 

口 RecursiveAction 类 : 该 类 扩展 了 ForkJoinTask 类 。RecursiveAction 类 也 是 一 个 抽 

象 类 ， 而 且 应 该 作为 实现 不 返回 结果 的 Fork/Join 任务 的 起 点 。 

口 countedCompleter 类 : 该 类 扩展 了 ForkJoinTask 类 。 该 类 应 作为 实现 任务 完成 时 触发 另 
一 任务 的 起 点 。 


7.2 第 一 个 例子 : k-means 聚 类 算法 


k-means 聚 类 算法 将 预先 未 分 类 的 项 集 分 组 到 预定 的 天 个 复 。 它 在 数据 挖掘 和 机 器 学 习 领 域 非常 
流行 ， 并 且 在 这 些 领域 中 用 于 以 无 监督 方式 组 织 和 分 类 数据 。 
每 一 项 通常 都 由 一 个 特征 (或 者 说 属性 ) 向 量 ( 这 里 使 用 向 量 是 作为 一 个 数学 概念 而 非 数 据 结构 ) 
定义 。 所 有 项 都 有 相同 数目 的 属性 。 每 个 簇 也 由 一 个 含有 同样 属性 数目 的 向 量 定义 ,这些 属性 描述 了 
所 有 可 分 类 到 该 复 的 项 。 该 向 量 叫 作 centroig。 例 如 ， 如 果 这 些 项 是 用 数值 型 向 量 定义 的 ， 那么 簇 
就 定义 为 划分 到 该 篮 的 各 项 的 平均 值 。 

该 算法 基本 上 可 以 分 为 四 个 步骤 。 
口 初始 化 : 在 第 一 步 中 ， 要 创建 最 初代 表 天 个 篮 的 向 量 ， 通 常 ， 你 可 以 随机 初始 化 这 些 向 量 。 
口 指派 : 然后 ， 你 可 以 将 每 一 项 划分 到 一 个 复 中 。 为 了 选择 该 徐 ， 可 以 计算 项 和 每 个 篮 之 间 的 
距离 。 可 以 使 用 欧 氏 距离 作为 距离 度量 方式 ,计算 代表 项 的 向 量 和 代表 徐 的 向 量 之 间 的 距 
离 。 之 后 ， 你 可 以 将 该 项 分 配 到 与 其 中 离 最 短 的 簇 中 。 
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口 更 新 : 一 旦 对 所 有 项 进行 分 类 之 后 ， 必 须 重新 计算 定义 每 个 簇 的 向 量 。 如 前 所 述 ， 通 常 要 计 
算 划 分 到 该 复 所 有 项 的 向 量 的 平均 值 。 
口 结束 : 最 后 ， 检 查 是 否 有 些 项 改变 了 为 其 指派 的 簇 。 如 果 存 在 变化 ， 需 要 再 次 转 入 指派 步 
了 又。 否则 算法 结束 ， 所 有 项 都 已 分 类 完毕 。 
该 算法 有 如 下 两 个 主要 局 限 。 
口 如 前 所 述 ， 如 果 随 机 初始 化 最 初 的 簇 向 量 ， 那 么 对 同一 项 集 执行 两 次 分 类 的 结果 是 不 同 的 。 
口 簇 的 数目 是 预先 定义 好 的 。 从 分 类 的 视角 来 看 ， 如 果 属 性 选择 得 不 好 将 会 导致 糟糕 的 结果 。 
尽管 如 此 , 在 对 不 同类 型 的 项 做 聚 类 分 析 时 该 算法 仍然 广 受 欢迎 。 为 了 测试 我 们 的 算法 ， 需 要 实现 
一 个 应 用 程序 来 对 某 个 文档 集 进 行 聚 类 。 就 文档 集 而 言 ， 第 5 章 已 经 介绍 了 有 关 电 影 信 息 的 维基 百科 网 
页 集 ， 本 章 使 用 的 是 该 网 页 集 的 缩减 版 ， 仅 从 中 选取 了 1000 个 文档 。 为 了 表示 每 个 文档 ， 必 须 使 用 向 
量 空间 模型 表示 。 在 这 种 表示 方法 中 ， 每 个 文档 都 可 以 用 数值 型 向 量 表示 ， 向 量 的 每 个 维度 都 代表 一 个 
单词 或 者 一 个 术语 ， 而 向 量 的 取 值 则 是 一 个 指标 ， 它 定义 了 该 单词 或 术语 在 该 文档 中 的 重要 程度 。 
使 用 向 量 空间 模型 表示 一 个 文档 集 时 ， 向 量 维度 的 数量 和 整个 文档 集中 不 同 单词 的 数量 相同 ， 这 
样 向 量 中 就 会 有 大 量 为 0 的 值 ， 因 为 每 个 文档 都 不 会 包含 所 有 单词 。 你 可 以 使 用 一 种 在 内 存 中 更 优 的 
表示 方式 来 避免 表示 所 有 的 0 值 ， 从 而 节省 内 存 并 提升 应 用 程序 的 性 能 。 
在 我 们 的 例子 中 ， 选 择 了 术语 频次 - 逆 文 档 频 次 ( TF-IDF ) 作为 定义 每 个 单词 重要 性 的 指标 ， 而 
且 将 具有 最 高 TF-IDF 值 的 50 个 词 作为 代表 每 个 文档 的 术语 。 
我 们 使 用 两 个 文件 : movies.words 文件 和 movie.data 文件 。movies.words 文件 中 存放 了 向 量 中 用 
到 的 所 有 单词 ，movie.data 中 存放 了 每 个 文档 的 表示 。movies.data 文件 的 格式 如 下 。 


10000202,rabona:23.039285705435507,1979:8.09314752937111,argentina:7.953798 
614698405,1a:5.440565539075689,argentine:4.058577338363469,editor:3.0401515 
284855267, spanish:2.9692083275217134,image_size:1.3701158713905104,narrator 
:1.1799670194306195,budget:0.286193223652206,starring:0.25519156764102785,c 
ast:0.2540127604060545,writer:0.23904044207902764,distributor:0.20430284744 
786784,cinematography:0.182583823735518,music:0.1675671228903468,caption:0. 
14545085918028047,runtime:0.127767002869991,country:0.12493801913495534,pro 
ducer:0.12321749670640451,director:0.11592975672109682,1links:0.079255823038 
12376,image:0.07786973207561361,external:0.07764427108746134,released:0.074 
47174080087617,name:0.07214163435745059, infobox:0.06151153983466272,film:0. 
035415118094854446 


其 中 ，10000202 是 文档 的 标识 符 ， 而 文件 其 余 的 部 分 都 按照 “单词 : tfxidf 值 ”的 格式 排列 。 
与 其 他 例子 一 样 , 我 们 将 实现 串 行 版 和 并 发 版 , 并 且 执 行 两 个 版 本 以 验证 Fork/Join 框架 为 该 算法 
带 来 的 性 能 提升 。 


7.2.1 公共 类 


串 行 版 和 并 发 版 有 一 些 共同 特征 ， 如 下 所 示 。 

口 VocabularyLoader 类 : 这 个 类 用 于 加 载 文 档 集中 构成 词汇 表 的 单词 列表 。 

口 Word 类 、Document 类 和 DocumentLoader 类 : 这 三 个 类 用 于 加 载 有 关 文 档 的 信息 。 在 串 行 
版 和 并 行 版 算法 中 ， 这 些 类 几乎 没有 差别 。 
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口 DistanceMeasure 类 : 该 类 用 于 计算 两 个 向 量 之 间 的 欧 氏 距离 。 
口 DocumentCluster 类 : 该 类 用 于 存储 有 关 艇 的 信息 。 

下 面 详细 说 明 一 下 这 些 类 。 

1. VocabularyLoader 类 

如 前 所 述 ， 数 据 存放 在 两 个 文件 中 。 其 中 一 个 是 movies.words 文件 。 该 文件 存放 的 列表 含有 文档 
中 用 到 的 所 有 词 。 vocabularyLoader 类 会 将 该 文件 转换 成 HashMap。 该 HashMap 的 键 是 整个 单词 ， 
而 其 值 为 一 个 代表 单词 在 列表 中 索引 位 置 的 整数 值 。 我 们 使 用 该 索引 来 判定 单词 在 表示 文档 的 向 量 空 
间 模 型 中 的 位 置 。 

该 类 只 有 一 个 方法 ， 即 10aq () ， 该 方法 接收 文件 路 径 为 参数 ， 并 日 返回 该 HashMap。 


public class VocabularyLoader { 


public static Map<String, Integer> load (Path path) throws 
IOException { 
int index=0; 
HashMap<String, Integer> vocIndex=new HashMap<String, 
Integer>(); 
try (BufferedReader reader = Files.newBufferedReader (Path) ){ 
String line = null; 


while ((line = reader.readLine()) != null) { 
vocIndex.put (line,index ) ; 
index++; 


} 
} 


return vocIndex; 


} 
} 


2. Word 类 、Document 类 和 DocumentLoader 类 

这 些 类 存储 了 将 在 算法 中 用 到 的 文档 的 所 有 信息 。 首 先 ，wora 类 存放 了 一 个 文档 中 某 个 单词 的 
信息 ,这 包括 该 单词 的 索引 及 其 在 文档 中 的 TF-IDF 值 . 该 类 仅 包 括 这 些 属 性 ( 分 别 是 int 型 和 double 
型 ), 并 且 实 现 了 comparable 接口 来 根据 两 个 单词 的 TF-IDF 值 对 它们 进行 排序 。 这 里 不 再 介绍 该 类 
的 源 代码 。 

Document 类 存放 了 有 关 文 档 的 所 有 信息 。 首 先 ， 该 类 有 一 个 存放 文档 中 单词 的 wora 对 象 数组 ， 
它 是 向 量 空间 模型 的 表示 形式 。 为 了 节省 内 存 空间 ， 我 们 仅 存储 文档 中 用 到 的 单词 。 然 后 ， 该 类 还 有 
一 个 string 变量 ， 用 于 表示 存放 文档 的 文件 名 。 最 后 ， 该 类 还 有 一 个 DocumentCluster 对 象 , 用 
于 表示 与 该 文档 相关 的 簇 。 该 类 还 包括 一 个 构造 函数 ， 用 于 初始 化 这 些 属性 和 方法 以 获取 和 设置 其 取 
值 。 我 们 仅 给 出 setcluster () 方 法 的 代码 。 在 本 例 中 ， 该 方法 将 返回 一 个 布尔 值 ， 这 个 值 表明 属性 
的 新 值 是 与 旧 值 相同 ， 还 是 一 个 新 值 。 我 们 将 用 该 值 判定 是 否 应 该 停止 算法 。 


public boolean setCluster(DocumentCluster cluster) { 
if (this.cluster == cluster) { 
return false; 
} else { 
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this.cluster = cluster; 
return true; 
} 
} 


最 后 ，DocumentLoader 类 用 于 加 载 有 关 文 档 的 信息 。 它 含有 一 个 静态 方法 10ad () ， 该 方法 接 
收文 件 路 径 和 存放 词汇 表 的 HashMap 作为 参数 ， 返 回 一 个 Document 对 象 的 数组 。 该 方法 逐 行 加 载 
文件 ， 并 且 将 每 一 行 都 转换 成 为 一 个 Document 对 象 。 代 码 如 下 : 


public static Document [] load(Path path, Map<String, Integer> 
vocIndex) throws IOExceptiont{ 
List<Document> list = new ArrayList<Document>(); 
try (BufferedReader reader = Files.newBufferedReader (path)) { 
String Line Tull 
while ((line = reader.readLine()) != null) { 
Document item = processItem(line, vocIndex); 
list.add(item); 
} 


} 
Document [] ret = new Document [list.size()]; 
return list.toArray (ret); 


} 
为 了 将 文本 文件 的 某 一 行 转换 成 一 个 Document 对 象 ， 可 以 使 用 processItem() 方 法 。 


private static Document processItem(String line,Map<String, 
Integer> vocIndex) { 


Stringtl] tokens: .LineLepltitt ,sy)y 
int size = tokens.length - 1; 


Document document = new Document (tokens[0], size); 
Word[] data = document .getData(); 


for (int i = 1; i < tokens.length; i++) { 
String[] wordInfo = tokens[i].split(":"); 
Word word = new Word(); 
word.setIindex(vocindex.get (wordIinfo[0])); 
word.setTfidf (Double.parseDouble (wordIinfo[1])); 
data[i - 1] = word; 

} 

Arrays.sort (data); 

return document; 


} 

如 前 所 述 ， 一 行 中 的 第 一 项 是 文档 的 标识 符 。 从 tokens [0] 中 获取 该 标识 符 并 且 将 其 传送 给 
Document 类 的 构造 函数 。 然 后 ， 对 于 tokens 字符 串 数 组 中 剩 下 的 值 ， 将 其 再 次 分 制 ， 进 而 获得 每 
个 单词 的 信息 ， 包 括 整 个 单词 及 其 TF-IDF 值 。 

3. DistanceMeasurer 类 

该 类 计算 文档 与 徐 ( 用 向 量 表示 ) 之 间 的 欧 氏 距离 。 经 过 排序 之 后 ， 单 词 数 组 中 的 单词 将 以 与 质 
心 数组 同样 的 顺序 存放 , 但 是 会 缺少 其 中 一 些 单词 。 对 于 缺少 的 这 些 单词 , 假设 其 TF-IDF 值 为 0, 这 
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or 


单 其 距离 就 是 质心 数组 中 对 应 值 的 平方 。 


public class DistanceMeasurer { 


public static double euclideanDistance (Word[] words, double[] 


centroid) { 
double distance = 0; 


int wordIndex = 0; 
for (int i = 0; i < centroid.length; i++) { 
if ((wordIndex < words.length) (words[wordIindex] .getIndex() 
三 三 = 全 和 
distance += Math.pow( (wordqs [wordIndex] .getTfidf() — 
centroid[i]), 2); 
wordIndex++;} 
} else { 
distance += centroid[i] * centroid[i]; 
} 
} 


return Math.sart (distance); 
} 


4. Documentcluster 类 


该 类 存放 算法 生成 的 每 个 篮 的 相关 信息 。 这 些 信 息 包 括 与 该 篮 相 关联 的 所 有 文档 构成 的 列表 ， 以 


及 代表 禾 的 向 量 的 质心 。 在 本 例 中 ,该 向 量 的 维度 数目 与 词汇 表 中 单词 的 数目 相同 。 该 类 含有 两 个 属 


[村 


性 ,一 个 对 这 两 个 属性 进行 初始 化 的 构造 函数 ， 以 及 获取 和 设置 这 两 个 属性 值 的 方法 。 该 类 还 有 两 个 
非常 重要 的 方法 ,第 一 个 是 calculateCentroid() 方 法 ,该 方法 计算 艇 的 质心 作为 向 量 的 平均 值 ， 


而 这 些 向 量 代 表 所 有 与 该 簇 相关 的 文档 。 代 码 如 下 : 


public void calculateCentroid() { 
Arrays.fill (centroid, 0); 


for (Document document : documents) { 
Word vector[] = document .getData();} 


for (Word word : vector) { 
centroid[word.getIindex()] += word.getTfidf(); 
} 
于 


for (int i = 0; i < centroid.length; i++) { 
centroid[i] /= documents.size(); 
} 
} 


第 二 个 方法 是 initialize() 方 法 , 该 方法 接收 一 个 Random 对 象 作为 参数 ， 并 |] 


初始 化 徐 向 量 的 质心 。 如 下 所 示 : 


目 采 用 随机 数 来 
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public void initialize(Random random) { 
for (int i = 0; i < centroid.length; i++) { 
centroid[i] = random.nextDouble(); 
} 
} 


7.2.2” 串 行 版 本 


既然 已 经 讲述 了 应 用 程序 的 公共 特性 , 下 面 看 看 如 何 实现 k-means 聚 类 算法 的 串 行 版 本 。 我 们 将 用 
到 两 个 类 : 用 于 实现 算法 的 serialkMeans 类 , 以 及 实现 main () 方 法 来 执行 算法 的 serialMain 类 。 
1. serialKMeans 类 
SerialKMeans 类 实现 了 k-means 聚 类 算法 的 串 行 版 本 。 该 类 的 主要 方法 是 calculate () 方 法 ， 
它 接收 如 下 参数 。 
口 Document 对 象 数组 ， 它 存放 了 有 关 文 档 的 信息 。 
口 要 生成 的 簇 的 数目 。 
口 词汇 表 的 大 小 。 
口 用 于 随机 数 生成 器 的 “种 子 ”。 
该 方法 返回 一 个 Documentcluster 对 和 象 数组 。 每 个 艇 都 有 一 个 与 其 相关 的 文档 列表 。 首 先 , 文 
档 可 以 创建 一 个 由 clustercount 参数 确定 的 艇 的 数组 ， 并 目 使 用 initialize() 方 法 和 Random 
对 象 对 其 初始 化 ， 如 下 所 示 : 


public class SerialKMeans { 


public static DocumentCluster[] calculate(Document[] documents, 
int clusterCount, int vocSize, int seed) { 
DocumentCluster[] clusters = new DocumentCluster[lclusterCount]; 


Random random = new Random (seed); 


for (int i = 0; i < clusterCount; i++) { 
clusters[i] = new DocumentCluster (vocSize); 
clusters[i].initialize (random); 

} 

by 村 


然后 ,重复 指派 和 更 新 阶段 ， 直 到 所 有 文档 对 应 的 簇 都 不 再 变化 为 止 。 最 后 ， 返 回 描述 了 文档 最 
终 组 织 情 况 的 簇 数组 ， 如 下 述 代码 所 示 : 


boolean change = true; 


int numSteps = 0; 
while (change) { 
change = assignment (clusters, documents); 
update(clusters); 
numSteps+t+; 
ly 
System.out .println("Number of steps: "+numSteps); 
return clusters; 
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指派 阶段 的 工作 在 assignment () 方 法 中 实现 。 该 方法 接收 Document 对 象 数 组 和 Document- 
cluster 对 象 数 组 作为 参数 。 对 于 每 个 文档 , 该 方法 都 计算 其 与 所 有 簇 之 间 的 欧 氏 距离 ,， 并 且 将 该 文 
档 指派 到 距离 最 短 的 簇 。 该 方法 返回 一 个 布尔 值 ， 该 值 表明 从 当前 位 置 到 下 一 位 置 是否 有 一 个 或 多 个 
文档 改变 了 为 其 指派 的 艇 。 如 以 下 代码 所 示 : 


private static boolean assignment (DocumentCluster[] clusters, Document[] 
documents) { 


boolean change = false; 


for (DocumentCluster cluster : clusters) { 
cluster.clearClusters (); 


; 


int numChanges = 0; 
for (Document document : documents) { 
double distance = Double.MAX_ VALUE; 
DocumentCluster selectedCluster = null; 
for (DocumentCluster cluster : clusters) { 
double curDistance = DistanceMeasurer.euclideanDistance 


(document .getData(), cluster.getCentroid()); 
if (curDistance < distance) { 
distance = curDistance; 


selectedCluster = cluster; 

} 
} 
selectedCluster.addDocument (document ) ; 
boolean result = document.setCluster(selectedCluster); 
if (result) 

numChanges++; 
} 
System.out .println("Number of Changes: " + numChanges); 
return numChanges > 0; 


} 
更 新 阶段 在 update() 方 法 中 实现 。 该 方法 接收 带 有 簇 信息 的 Documentcluster 对 象 数组 作为 
参数 ， 并 且 直 接 重新 计算 每 个 簇 的 质心 。 


private static void update(DocumentCluster[] clusters) { 
for (DocumentCluster cluster : clusters) { 
cluster.calculateCentroid(); 


} 


2. serialMain 类 
SerialMain 类 中 含有 main 1() 方 法 , 可 以 启动 对 k-means 算法 的 测试 。 首先 , 它 从 文件 加 载 数据 
(单词 和 文档 )。 


public class SerialMain { 


public static void main(String[] args) { 
Path pathVoc = Paths.get ("data", "movies.words"); 
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Map<String, Integer> vocIndex=VocabularyLoader.load(pathVoc); 
System.out .println("Voc Size: "+vocIndex.size()); 


Path pathDocs = Paths.get ("data", "movies.data"); 
Document [] documents = DocumentLoader.load(pathDocs, 
vocIindex); 


System.out.println("Document Size: "+documents.length); 


然后 ， 它 初始 化 要 生成 的 复数 以 及 随机 数 生 成 器 的 “种 子 ”。 如 果 它 们 并 未 作为 main () 方 法 的 参 
数 进 行 传递 ， 可 以 使 用 如 下 的 默认 值 。 


if (args.lengthn != 2) { 
System.err.println("Please specify K and SEED"); 
return; 


} 
int K = Integer.valueOf (args{[0 
int SEED = Integer.valueOf (args [1]); 


} 
最 后 ， 启 动 算法 ,度量 其 执行 时 间 ， 并 且 输 出 为 每 个 簇 分 配 的 文档 数 。 


Date start, end; 

start=new Date(); 

DocumentCluster[] clusters = SerialKMeans.calculate(documents, 
K ,vocIindex.size(), SEED); 


end=new Date(); 

System.out .println("K: "+K+"; SEED: "+SEED); 

System.out .println("Execution Time: "+(end.getTime()- 
start.getTime())); 

System.out .println(Arrays.stream(clusters) 

.map (DocumentCluster::getDocumentCount) 
.Sorted (Comparator.reverseOrder()) 

.map (Object : :toString) 

.Collect( Collectors.joining(", ", "Cluster sizes: ", "™"))); 


7.2.3 ”并 发 版 本 


为 实现 该 算法 的 并 发 版 本 , 我 们 运用 了 Fork/Join 框架 。 我 们 已 经 基于 RecursiveAction 类 实现 了 
两 种 任务 。 如 前 所 述 ， 当 希望 使 用 Fork/Join 框架 处 理 不 返回 结果 的 任务 时 , 可 以 使 用 RecursiveAction 
任务 。 将 指派 阶段 和 更 新 阶段 的 工作 作为 在 Fork/Join 框架 中 执行 的 任务 来 实现 。 

为 实现 k-means 算法 的 并 发 版 本 ， 将 修改 一 些 公共 类 以 便 使 用 并 发 数据 结构 。 然 后 ， 要 实现 两 个 
任务 。 最 后 ， 还 将 实现 concurrentKMeans 类 和 concurrentMain 类 。 其 中 , ConcurrentKMeans 
类 实现 了 算法 的 并 发 版 本 ， 而 concurrentMain 类 用 于 测试 算法 的 并 发 版 本 。 

1. 面向 Fork/Join 框架 的 两 个 任务 : AssignmentTask 和 UpdateTask 

如 前 所 述 ， 将 指派 阶段 和 更 新 阶段 作为 在 Fork/Join 框架 中 执行 的 任务 实现 。 

指派 阶段 指派 一 个 文档 至 与 该 文档 欧 氏 距离 最 短 的 艇 。 这样 就 必须 要 人 处理 所 有 文档 并 且 计 算 所 有 
文档 和 所 有 簇 之 间 的 欧 氏 距离 。 我 们 将 使 用 一 个 任务 中 的 文档 数 作为 指标 ， 以 便 决 定 是 否 必须 将 该 任 


上 


152 


AS - 立 - 


镍 7 吝 


优化 分 治 解决 方案 : 


Fork/Join 框架 


务 分 割 。 从 要 处 理 所 有 文档 的 任务 开始 分 割 ， 直 到 任务 要 处 理 的 文档 数 低 于 预定 规模 为 止 。 


Assignment] 


相关 代码 如 下 : 


protected void compute() { 


FE 


} 


(end - start <= maxSize) { 
二 


(dnt 4 EE Staltr 二 end: 
ConcurrentDocument documen 


rask 类 有 以 下 几 个 属性 。 
口 含有 有 关 篮 数据 的 concurtentDocumentClustet 对 象 数组 。 
口 含有 有 关 文 档 数 据 的 concurrentDocument 对 象 数 组 。 
口 两 个 整 型 属性 start 和 enda， 它 们 决定 了 任务 要 处 理 的 文档 数 。 
口 AtomicInteger 属性 numchanges， 它 存放 的 是 从 上 一 轮 执行 到 当前 执行 的 过 程 中 改变 了 为 
其 指派 的 簇 的 文档 数 。 
口 整 型 属性 maxsize， 它 存放 的 是 一 个 他 

我 们 实现 了 一 个 构造 函数 来 初始 化 所 有 属性 

这 些 作 
档 数 。 如 果 该 值 小 于 或 等 于 maxsize 
欧 氏 距离 ， 并 


1+ 十 ) 


F 务 所 能 处 理 的 最 大 文档 数 。 


E， 以 及 用 于 获取 和 设置 这 些 属 和 


E 值 的 方法 。 


{ 


t = documents[i]; 


double distance = Double.MAX_ VALUE; 
ConcurrentDocumentCluster selectedCluster = null; 


for 
double curDistance = Dis 
(document 
本 
distance = 
selectedCluster = clus 

} 

} 


(ConcurrentDocumentCluster cluster 


selectedCluster.addDocumen 
boolean result 
if (result) { 


numChanges.incrementAndGet () ; 


} 


.getData(), 
(curDistance < distance) 
curDistance; 
ter; 


: Clusters) { 


tanceMeasurer.euclideanDistance 
cluster.getCentroid()); 


{ 


t (document); 
= document .setCluster (selectedCluster); 


如 果 该 任务 要 处 理 的 文档 数量 太 多 ,那么 将 该 集合 分 割 成 两 个 部 分 ， 并 且 创 
别处 理 这 两 个 部 分 ， 如 下 所 示 : 


是 无 须 同步 机 制 ， 而 且 不 会 导致 任 


E 务 ( 对 每 个 任务 都 是 如 此 ) 的 主 方法 是 compute () 方 法 。 首 先 ， 检 查 任务 必须 处 理 的 文 
属性 的 值 ， 那 么 处 理 这 些 文档 。 计 算 每 个 文档 和 所 有 簇 之 间 的 
日 为 文档 选择 距离 最 短 的 簇 。 如 果 必 要 ， 可 以 使 用 incrementAndGet () 方 法 增加 
numChanges 原子 变量 的 值 。 该 原子 变量 可 以 同时 由 多 个 线程 更 新 
何 内 存 不 一 致 问题 。 


建 两 个 新 的 任务 来 分 


} else { 
int miqd = (start + end) / 2; 
AssignmentTask task1 = new AssignmentTask (clusters, documents, 
start, mid, numChanges, maxSize); 
AssignmentTask task2 = new AssignmentTask (clusters, documents, 
mid, end, numChanges, maxSize); 


invokeAll (task1， 


task2); 
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为 了 在 Fork/Join 池 中 执行 上 述 任务 , 使 用 了 invokeaAll () 方 法 。 该 方法 在 任务 结束 其 执行 后 返回 。 
更 新 阶段 重新 计算 每 个 复 的 质心 作为 该 徐 中 所 有 文档 的 平均 值 。 如 此 便 必须 处 理 所 有 簇 。 我 们 将 
使 用 一 个 任务 要 处 理 的 簇 数 作为 指标 来 控制 是 否 要 对 任务 进行 分 割 。 从 一 个 需要 处 理 所 有 簇 的 任务 开 
始 ， 对 其 进行 分 割 ， 直 到 任务 要 人 处理 的 簇 比 预定 规模 小 为 止 。 
UpdateTask 类 有 如 下 属性 。 
口 含有 有 关 艇 数据 的 ConcurrentDocumentCluster 对 象 数 组 。 
口 两 个 整 型 属性 start 和 eng， 它们 确定 了 任务 要 处 理 的 簇 数 。 
口 整 型 属性 maxsize， 存 储 了 一 个 任务 可 处 理 的 最 大 复数 。 
我 们 实现 了 一 个 初始 化 上 述 属性 的 构造 函数 ， 以 及 用 于 获取 和 设置 这 些 属性 值 的 方法 。 
cormpute () 方 法 首先 检查 任务 要 处 理 的 复数 。 如 果 该 数值 小 于 或 者 等 于 maxsize 属性 的 值 ， 则 
该 方法 将 处 理 这 些 复 并 且 更 新 其 质心 。 


QOverride 
protected void compute() { 
if (end - start <= maxSize) { 
for (int i = start; i < end; i++) { 
ConcurrentDocumentCluster cluster = clusters[il]; 
cluster.calculateCentroid(); 


} 
如 果 任 务 要 处 理 的 艇 数量 太 大 ,那么 将 任务 要 处 理 的 簇 集合 划分 成 两 个 部 分 ， 并 且 创 建 两 个 任务 
来 分 别处 理 每 一 半 和 集合 ， 如 下 所 示 : 


} else { 
int mid = (start + end) / 2; 
UpdateTask taskl = new UpdateTask (clusters, start, mid, 
maxSize); 
UpdateTask task2 = new UpdateTask (clusters, mid, end, 
maxSize); 


invokeAll (taskl1, task2); 
} 
} 


2. concurrentKMeans 类 

ConcurrentKMeans 类 实现 了 k-means 聚 类 算法 的 并 发 版 本 。 和 趾 行 版 本 一 样 ， 该 类 的 主 方法 是 
calculate() 方 法 。 该 方法 接收 如 下 参数 。 
口 存放 有 关 文 档 信 息 的 concurrentDocument 对 象 数 组 。 
口 想 要 生成 的 簇 的 数目 。 
口 词汇 表 的 大 小 。 
口 用 于 随机 数 生成 品 的 “种 子 ”。 
口 在 不 将 Fork/Join 任务 分 割 成 其 他 任务 的 前 提 下 ， 该 任务 所 要 处 理 的 最 大 项 数 。 

calculate() 方 法 返回 一 个 存放 艇 信息 的 ConcurrentDocumentCluster 对 象 数 组 。 每 个 簇 都 
有 与 之 相关 的 文档 列表 。 首 先 ， 基 于 文档 创建 由 numberclusters 参数 指定 数目 的 复数 组 ， 并 且 使 
用 initialize() 方 法 和 一 个 Random 对 象 来 初始 化 这 些 艇 。 
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public class ConcurrentKMeans { 


public static ConcurrentDocumentCluster[] calculate 


(ConcurrentDocument[] documents int numberCluster 
int vocSize, int seed, int maxSize) { 
ConcurrentDocumentClusterl[] clusters = new 


ConcurrentDocumentCluster[numberClusters]; 


Random random = new Random(seed); 

for (int i = 0; i < numberClusters; i++) { 
clusters[i] = new ConcurrentDocumentCluster(vocSize); 
clusters[i].initialize (random); 


} 


然后 ， 重 复 指派 阶段 和 更 新 阶段 ， 直 到 所 有 文档 所 属 的 簇 都 不 再 改变 为 止 。 在 进入 循环 之 前 ， 创 
建 ForkJoinPool 对 象 来 执行 该 任务 及 其 所 有 子 任务 。 一 旦 循环 完成 ， 与 其 他 Executor 对 象 一 样 ， 
必须 对 Fork/Join 池 使 用 shut gown () 方 法 以 结束 其 执行 ,最 后 ,返回 含有 文档 最 终 组 织 结 果 的 簇 数 组 。 


boolean change = true; 
ForkJoinPool pool = new ForkJoinPool (); 


int numSteps = 0; 

while (change) { 
change = assignment (clusters, documents, maxSize, pool); 
update(clusters, maxSize, pool); 
numSteps++; 

} 

pool.shutdown(); 

System.out.println("Number of steps: "+numSteps); 

return clusters; 


} 
指派 阶段 在 assignment () 方 法 中 实现 。 该 方法 接收 复数 组 、 文 档 数 组 和 maxsize 属性 作为 参 
数 。 首 先 ， 删 除 所 有 簇 的 关联 文档 列表 。 


private static boolean assignment (ConcurrentDocumentCluster[] 
clusters, ConcurrentDocument [] documents, 
int maxSize, ForkJoinPool pool) { 


台 


boolean change = false; 


for (ConcurrentDocumentCluster cluster : clusters) { 
cluster.clearDocuments (); 


} 
然后 ,初始 化 必要 的 对 象 用 于 存放 已 指派 复发 生变 化 的 文档 数 的 AtomicInteger 对 象 ， 以 及 
用 于 启动 处 理 过 程 的 AssignmentTask 对 象 。AtomicInteger 类 支持 原子 操作 。 也 就 是 说 ， 其 他 线 
程 无 法 通过 中 间 状 态 查看 该 操作 。 对 于 剩余 线程 来 说 ， 该 操作 可 执行 也 可 不 执行 。 这 两 个 对 象 还 在 
set () 操作 和 随后 的 get () 操作 之 间 建 立 了 happens-before 关系 。 使 用 AtomicInteger 对 象 确保 所 
有 线程 都 可 以 以 线程 安全 的 方式 更 新 其 值 。 


AtomicInteger numChanges = new AtomicInteger (0); 

AssignmentTask task = new AssignmentTask (clusters, documents, 0, 
documents.length, numChanges, maxSize); 

ForkJoinPool] pool = new ForkJoinPool (); 
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然后 , 使 用 ForkJoinPool 的 execute() 方 法 以 异步 方式 执行 池 中 的 任务 , 并 且 使 用 AssignmentTask 
对 象 的 join () 方 法 等 待 其 结束 ， 如 下 所 示 : 


Pool .execute (task); 
task.join(); 


最 后 , 检查 已 改变 指派 徐 的 文档 数 。 如 果 存 在 发 生 改变 的 文档 , 将 返回 true 值 , 否则 返回 false 
值 。 该 代码 如 下 所 示 : 


System.out .println("Number of Changes: " + numChanges); 
return numChanges.get() > 0; 


} 

更 新 阶段 在 update () 方 法 中 实现 。 该 方法 接收 簇 数组 和 maxsize 作为 参数 。 首 先 ， 创建 一 个 
UpdateTask 对 象 来 更 新 所 有 簇 ,。 然后, 执行 ForkJoinPool 对 象 ( 该 方法 作为 参数 接收 ) 中 的 任务 ， 
如 下 所 示 : 


private static void update(ConcurrentDocumentCluster[] clusters, 
int maxSize, ForkJoinPool pool) { 

UpdateTask task = new UpdateTask (clusters, 0, clusters.length, 

maxSize, ForkJoinPool pool); 


pool .execute (task); 
task.join(); 
J 
} 


3. concurrentMain 类 
ConcurrentMain 类 中 含有 main () 方 法 ， 可 启动 对 k-means 算法 的 测试 。 它 的 代码 与 SerialMain 
类 相当 ， 只 是 将 串 行 类 改写 为 了 并 发 类 。 


7.2.4 对 比 解决 方案 


为 了 对 比 两 种 解决 方案 ， 我 们 更 改 三 个 参数 的 取 值 并 多 次 执行 试验 。 
口 参数 KK 确定 了 要 生成 的 簇 数 。 将 其 值 分 别 设置 为 5、10、15 和 20 来 测试 算法 。 
口 随机 数 生成 器 的 “种 子 ”。 该 “种 子 ” 确 定 了 初始 质心 的 位 置 。 将 其 设置 为 1 和 13 来 测试 算法 。 
口 对 于 并 发 算法 来 说 ，maxsize 参数 确定 了 一 个 任务 在 不 分 割 的 前 提 下 所 能 处 理 的 最 大 项 ( 文 
档 或 者 复 ) 数 。 将 其 设置 为 1、20 和 400 来 测试 算法 。 
采用 JMH 框架 执行 这 些 示 例 ， 可 以 在 Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测试 的 框架 是 比 
较 好 的 解决 方案 ， 它 直接 用 currentTimeMillis() 方 法 或 者 nanoTime () 方 法 度量 时 间 。 在 两 种 不 
同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 
口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 
器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 
有 四 个 核 。 
下 面 是 得 到 的 执行 时 间 (单位 : 毫秒 )。 首 先 ， 给 出 在 AMD 架构 上 得 到 的 结果 。 
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AMD 架构 
串 行 版 并 发 版 

人 种 子 maxSize=1 maxSize=20 maxSize=400 
5 1 8647.129 4919.924 3795.23 3754.424 
10 9419.145 3665.896 3474.182 3456.362 
15 16 324.931 6320.174 $5477.755 5543.474 
20 25 707.589 8360.485 9280.459 8362.34 

5 13 5122.681 2754.947 2262.426 2254.837 
10 3 12 629.098 4919.314 4593.705 4579.875 
15 3 16 261.68 6838.753 5606.074 5474.2 

20 3 23 626.983 7605.616 8114.582 6694.77 

下 面 是 在 Intel 架构 上 得 到 的 结果 。 
Intel 架构 
串 行 版 并 发 版 

人 种 子 maxSize=1 maxSize=20 maxSize=400 
SS 1 4049.579 5112.728 4111.275 4141.222 
10 4290.91 4617.793 3966.848 3957.214 
15 7155.934 4211.487 6358.552 6493.285 
20 1 11 444.903 10 405.531 5949.083 10 009.849 
3 13 2437.533 2893.485 2444.874 2489.087 
10 3 $5702.272 5637.996 5165.333 5206.648 
15 3 7110.732 4115.091 6348.288 6445.648 
20 3 10 495.405 9509.217 5995.638 $5371.75 

可 以 得 出 下 述 结论 。 


口 “种 子 ” 对 于 执行 时 间 有 着 重要 且 不 可 预测 的 影响 。 有 时 使 用 “种 子 ”13 的 执行 时 间 会 低 一 
些 ,但 有 时 使 用 “种 子 ”1 的 执行 时 间 会 低 一 些 。 
口 增加 簇 的 数目 时 ， 执 行 时 间 也 会 增加 。 
口 maxSize 参数 对 于 执行 时 间 的 影响 不 大 。 参 数 天 或 者 “种 子 ”对 于 执行 时 间 的 影响 较 大 。 如 
果 增 大 了 maxsize 参数 的 值 ， 将 会 获得 更 好 的 性 能 。1 和 20 之 间 的 差别 比 20 和 400 之 间 的 
差别 更 大 。 
口 在 所 有 情况 下 ， 算 法 的 并 发 版 本 的 性 能 都 比 串 行 版 本 更 好 。 只 有 在 Intel 架构 上 ， 当 艇 的 数目 
较 少 时 ， 串 行 版 的 结果 才 会 比 并 发 版 更 好 。 
例如 ， 如 果 用 加 速 比 来 比较 参数 为 K=20 且 seed=13 的 串 行 算法 和 参数 为 K=20、seed=13 且 
maxSize=400 的 并 行 算法 的 执行 速度 ， 就 会 得 到 下 面 的 结果 。 


4 23 626.983 
OAs 运 serial ”一 9 < 3 .529 
ohana 6694.77 
和 10495.405 
Sntel 二 = 2 = 1.95 
7. $5371.75 


concurrent 
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假设 有 大 量 描述 某 个 项 列表 的 数据 。 例 如 ,假设 有 关于 很 多 人 的 很 多 属性 ( 姓名、 姓氏 、 地 址 、 
电话 号 码 等 )。 通 常 需要 获得 满足 特定 标准 的 数据 。 例 如 ， 想 要 获得 在 某 一 街道 居住 的 人 或 者 叫 某 个 
特定 名 字 的 人 。 

本 节 ， 你 将 实现 这 样 一 个 科 选 程序 。 我 们 采用 了 来 自 UCI 的 Census-IncomeKDD 数据 集 ， 该 数据 
集 包 含 了 1994 年 到 1995 年 从 美国 人 口 普 查 局 的 人 口 普 查 结果 中 抽取 的 加 权 人 口 普查 数据 。 

在 本 例 的 并 发 版 本 中 , 你 将 学 会 如 何 撤 销 在 Fork/Join 池 中 运行 的 任务 , 以 及 如 何 管理 在 任务 中 抛 
出 的 未 校 验 异 常 。 


7.3.1 公共 特性 


我 们 实现 了 一 些 类 来 读 取 文 件数 据 并 且 进 行 筛选 。 这 些 类 在 算法 的 串 行 版 本 和 并 发 版 本 中 都 会 用 
到 ， 具 体 如 下 。 

口 censusData 类 : 该 类 存储 了 39 个 用 于 定义 人 员 的 属性 。 该 类 定义 了 这 些 属 性 以 及 获取 和 设 
置 这 些 属 性 值 的 方法 。 我 们 将 通过 编号 标识 每 个 属性 。 该 类 的 evaluateFilter () 方 法 包含 

了 属性 名 称 与 属性 编号 之 间 的 关系 。 

口 censusDataLoader 类 : 该 类 从 一 个 文件 中 加 载 人 口 普 查 数据 。 该 类 有 一 个 1oad ( ) 方 法 ， 
该 方法 将 文件 的 路 径 作为 输入 参数 ， 返 回 一 个 含有 文件 中 所 有 人 员 信 息 的 censusData 数组 。 
口 Filterpata 类 : 该 类 定义 了 一 个 数据 筛选 器 。 筛 选 器 包括 一 个 属性 的 编号 和 该 属性 的 值 。 
口 Filter 类 : 该 类 实现 了 一 些 方法 来 判定 一 个 censusData 对 象 是 否 满足 一 个 筛选 器 列表 所 


设 定 的 条 件 。 
这 里 不 再 介绍 这 些 类 的 源 代码 ， 它 们 都 非常 简单 ， 你 可 以 查看 本 例 源 代码 的 详情 。 
7.3.2” 串 行 版 


我 们 在 两 个 类 中 实现 了 筛选 算法 的 串 行 版 本 。Serialsearch 类 进行 数据 的 筛选 ， 该 类 提供 了 两 
个 力 法 8 
口 findany () 方 法 : 该 方法 接收 censusData 对 象 数 组 作为 参数 ， 其 中 有 来 自 文件 的 数据 和 一 
个 筛选 器 列表 ， 而 且 该 方法 返回 一 个 censusData 对 象 ， 其 中 含有 第 一 个 满足 筛选 器 规定 标 
准 的 人 员 。 
口 findaAl1() 方 法 : 该 方法 接收 censusData 对 象 数 组 作为 参数 ， 其 中 有 来 自 文件 的 数据 和 一 
个 第 选 器 列表 ， 而 且 该 方法 返回 一 个 censusData 对 象 数 组 ， 其 中 含有 所 有 满足 筛选 器 规定 
标准 的 人 员 。 
SerialMain 类 实现 了 该 版 本 程序 的 main () 方 法 ， 并 且 进 行程 序 测试 ， 测 量 了 该 算法 一 些 情况 
下 的 执行 时 间 。 
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1. serialSearch 类 
如 前 所 述 ， 该 类 实现 了 数据 筛选 功能 。 它 提供 了 两 个 方法 ,第 一 个 是 fingany () 方 法 ， 用 于 查 
找 满 足 筛 选 器 条 件 的 第 一 个 数据 对 象 。 该 方法 找到 第 一 个 数据 对 象 时 ， 其 执行 完成 。 相 关 代码 如 下 : 


public class SerialSearch { 


(CensusData[] data, List<FilterData> 


public static CensusData findqAny 
filters) { 


int index=0; 
for (CensusData censusData : data) { 
if (Filter.filter(censusData, filters)) { 
System.out .println("Found: "+index); 
return censusData; 


} 


index++; 


} 


return null; 
} 
第 二 个 是 findA1l1 () 方 法 ， 该 方法 返 
所 有 对 象 ， 具 体 如 下 : 


public static List<CensusData> findAll 


回 一 个 censusData 对 象 数组 ， 其 中 含有 满足 筛选 标准 的 


(CensusDatal[l] data, 
List<FilterData> filters) { 


List<CensusData> results=new ArrayList<CensusData>(); 


for (CensusData censusData : data) { 
if (Filter.filter(censusData, filters)) { 


results.add (censusData); 


} 
} 


return results; 


} 


2. serialMain 类 
你 将 在 不 同情 况 下 使 


public class SerialMain { 
public static void main(String[] args) { 
Path path = Paths.get ("data","census-income.data"); 


j 该 类 测试 筛选 算法 。 首 先 ， 从 文件 加 载 数据 ， 如 下 所 示 : 


=CensusDataLoader.load (path); 


CensusData datal[l]= 
System.out .println("Number of items: "+data.length); 


Date start, endg; 
我 们 要 做 的 第 一 件 事 是 使 用 fingany () 方 法 查找 出 现在 数组 中 第 一 个 位 置 的 对 象 。 可 以 构建 一 
个 筛选 器 列表 ， 然 后 调用 findaAny () 方 法 ， 该 方法 的 参数 为 文件 中 的 数据 和 筛选 器 列表 。 


List<FilterData> filters=new ArrayList<>(); 
FilterData filter=new FilterData(); 
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filter.setIdField(32); 

filter.setValue ("Dominican-Republic"); 
filters.add(filter); 

filter=new FilterData(); 

filter.setIdField(31); 

filter.setValue ("Dominican-Republic"); 
filters.add(filter); 

filter=new FilterData(); 

filter.setIdField(1); 

filter.setValue("Not in universe"); 
filters.add(filter); 

filter=new FilterData(); 

filter.setIdField(14); 

filter.setValue("Not in universe"); 
filters.add(filter); 

start=new Date(); 

CensusData result=SerialSearch.findAny (data, filters); 
System.out .println("Test 1 - Result: "+result 
.getReasonForUnemployment ()); 


end=new Date(); 
System.out .println("Test 1- Execution Time: "+(end.getTime()-— 
start.getTime())); 


筛选 器 根据 下 述 属性 进行 查找 。 
口 32: 这 是 生父 的 国籍 属性 。 
口 31: 这 是 生母 的 国籍 属性 。 
口 1: 这 是 工作 类 别 属 怕 
口 14: 这 是 失业 原因 属性 ， 其 中 一 个 可 能 值 是 Not in universe。 
我 们 将 按照 如 下 方式 测试 其 他 用 例 。 
口 使 用 findany () 方 法 查找 出 现在 数组 中 最 后 一 个 位 置 的 对 象 。 
口 使 用 fingany () 方 法 尝试 查找 某 个 并 不 存在 的 对 象 。 

口 在 错误 情境 中 使 用 fingany () 方 法 。 

口 使 用 fingA11 () 方 法 获取 满足 筛选 器 列表 条 件 的 所 有 对 象 。 

口 在 错误 情境 中 使 用 findAl1 () 方 法 。 


7.3.3 ”并 发 版 本 


我 们 将 在 并 发 版 本 中 引入 更 多 要 素 。 

口 任务 管理 器 : 使 用 Fork/Join 框架 时 ， 从 一 个 任务 开始 ， 并 且 将 该 任务 分 割 成 两 个 或 者 更 多 子 
任务 ， 之 后 再 一 次 次 分 割 ， 直 到 问题 达到 你 想 要 的 规模 为 止 。 有 些 情 况 下 ， 需 要 结束 所 有 任 
务 。 例 如 ， 实现 findqany () 方 法 并 且 找 到 了 一 个 满足 所 有 条 件 的 对 象 时 ， 就 不 需要 继续 执行 
剩 下 的 任务 了 。 

口 用 于 实现 findany() 方 法 的 RecursiveTask 类 : 该 类 是 扩展 了 RecursiveTask 类 的 
IndividualTask 类 。 


其 中 一 个 可 能 值 是 Not in universe。 


线 
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口 用 于 实现 findA1l1l() 方 法 的 RecursiveTask 类 : 该 类 是 扩展 了 RecursiveTask 类 的 
ListTask 类 。 


下 面 详细 了 解 一 下 这 些 类 。 

1. TaskManager 类 

我 们 将 使 用 该 类 来 控制 任务 的 撤销 。 我 们 将 在 下 述 两 种 情况 中 撤销 任务 的 执行 。 

口 正在 执行 fingany () 操作 并 且 找 到 了 满足 要 求 的 对 象 。 

口 正在 执行 fingany () 或 findall() 操 作 并 且 在 某 个 任务 中 出 现 了 一 个 未 校 验 异 常 。 


该 类 声明 了 两 个 属性 : 一 个 是 用 于 存放 所 有 待 撤销 任务 的 concurrentLin 
用 于 保证 只 有 一 个 任务 执行 cancelTasks () 方 法 的 AtomicBoolean 变量 


变量 。 使 用 AtomicBoolean 
变量 


确保 所 有 任务 都 能 以 线程 安全 的 方式 访问 它们 的 值 。 


public class TaskManager { 


kedDeque, 另 一 个 是 


Private Set<RecursiveTask> tasks; 
private AtomicBoolean cancelled; 


public TaskManager() { 


tasks = ConcurrentHashMap .newKeySet () ; 


cancelled = new AtomicBoolean (false); 


} 


该 类 定义 了 向 ConcurrentLinkedDeque 添加 某 个 任务 的 方法 ， 从 ConcurrentLinkedDequ 
中 删除 某 个 任务 的 方法 ， 以 及 撤销 存放 在 ConcurrentLinkedDeque 中 所 有 任务 的 方法 。 要 撤销 这 
些 任务 ,我 们 使 用 在 ForkJoinTask 类 中 定义 的 cancel () 方 法 。 该 方法 的 参数 为 true 时 会 强制 中 
断 运 行 中 的 任务 ， 如 下 所 示 : 


public void addTask (RecursiveTask task) 
tasks.add (task); 
} 


t 


public void cancelTasks (RecursiveTask sourceTask) 


{ 


if (cancelled.compareAndSet (false, true)) { 
for (RecursiveTask task : tasks) { 
if (task != sourceTask) { 
if(cancelled.get()) { 


task.cancel (true); 
} 
else { 


tasks.add (task); 


public void deleteTask (RecursiveTask task) 
tasks.remove (task); 


} 


{ 
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cancelTasks () 方 法 接收 一 个 RecursiveTask 对 象 作为 参数 。 除了 调用 该 方法 的 任务 之 外 , 我 
们 将 撤销 所 有 其 他 任务 。 我 们 不 想 撤 销 已 经 找到 结果 的 任务 。compareAndSet (false，true) 方 法 
将 AtomicBoolean 变量 设置 为 true, 而 且 当 且 仅 当 该 变量 的 当前 值 为 false 时 才 会 返回 true 值 。 
如 果 AtomicBoolean 变量 已 经 有 一 个 true 值 , 那么 该 方法 将 返回 false 值 。 整 个 操作 都 以 原子 方 
式 执行 , 因此 即使 cancelTasks () 方 法 被 不 同 线程 同时 调用 多 次 , 也 能 够 保证 i£ 语句 的 主体 部 分 最 
多 执行 一 次 。 

2. IndividualTask 类 

IndividualTask 类 扩展 RecursiveTask 类 ,以 censusData 任务 为 参数 ， 并 日 实现 了 
findAny () 操 作 。 该 类 定义 了 如 下 属性 。 
口 一 个 含有 所 有 censusData 对 象 的 数组 。 
口 start 属性 和 end 属性 ， 它 们 确定 了 要 处 理 的 元 素 。 
口 size 属性 ， 它 确定 了 在 无 须 分 割 任务 的 前 提 下 所 处 理 的 最 大 元 素数 。 
口 TaskManager 类 ， 它 用 于 在 必要 之 时 撤销 任务 。 
下 面 的 代码 给 出 了 一 个 将 要 应 用 的 筛选 器 列表 。 


private CensusData[] data; 
private int start, end, size; 
private TaskManager manager; 
private List<FilterData> filters; 


public IndividualTask (CensusDatal[l] data, int start, 
int end, TaskManager manager, 
int size, List<FilterData> filters) { 
this.data = data; 
this.start = start; 
this.end = engd; 
this.manager = manager; 
this.size = size; 
thisafilters. = filters: 


该 类 中 的 主 方法 是 compute () 方 法 。 该 方法 返回 一 个 censusData 对 象 。 如 果 任 务 需要 处 理 的 
元 素数 比 size 属性 值 小 ， 该 方法 直接 进行 对 象 查找 。 如 果 该 方法 找到 了 想 要 的 对 象 ， 那 么 它 将 返回 
该 对 象 并 且 使 用 cancelTasks () 方 法 撤销 剩余 任务 的 执行 。 如 果 该 方法 没有 找到 想 要 的 对 象 ， 那 么 
它 将 返回 nul1l 值 ， 如 下 所 示 : 


if (end - start <= size) { 
for (int i = start; i < end && ! Thread.currentThread() 


.isInterrupted(); i++) { 
CensusData censusData = datalil]; 
if (Filter.filter(censusData, filters)) { 
System.out .println("Found: " + i); 


manager.cancelTasks (this); 
return censusData; 
} 
} 


return null; 
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如 果 要 处 理 的 项 数 要 比 size 属性 规定 的 多 ,那么 要 创建 两 个 子 任务 来 分 别处 理 其 中 的 一 半 元 素 。 


} else { 
int mid = (start + end) / 2; 
IndividualTask taskl1 = new IndividualTask(data, start, mid, manager, 
size, filters); 
IndividualTask task2 = new IndividualTask (data, mid, end, manager, 
size, filters); 


然后 ， 向 任务 管理 器 添加 新 创建 的 任务 ， 并且 删除 实际 任务 。 如 果 要 撤销 任务 ， 即 指 仅 撤销 正在 
运行 的 任务 。 
manager.addTask (task]1); 


manager.addTask (task2); 
manager.deleteTask (this); 


接着 ,使 用 fork () 方 法 以 异步 方式 将 任务 发 送 给 ForkJoinPool， 并 且 使 用 quietlyJoin() 
方法 等 待 其 执行 结束 。 

join() 方 法 和 quietlyJoin() 方 法 之 间 的 区 别 在 于 ,join() 启 动 之 后 , 如 果 任 务 撤销 , 将 抛 出 
异常 ,或 者 在 方法 内 部 抛 出 一 个 未 校 验 异常 ， 而 auietlyJoin () 方 法 则 不 抛 出 任何 异常 。 


七 aSk1 .fork() 
七 aSk2 .fork() 
taskl .quietlyJoin(); 
task2.quietlyJoin(); 


然后 ， 从 TaskManager 类 中 删除 子 任务 ， 如 下 所 示 : 


manager.deleteTask (task1); 
manager.deleteTask (task2); 


现在 , 使 用 join () 方 法 获取 任务 的 结果 。 如 果 一 个 任务 抛 出 一 个 未 校 验 异 常 ， 那 么 该 异常 将 被 
传播 而 无 须 特殊 处 理 ， 而 撤销 操作 则 直接 被 忽略 ， 如 下 所 示 : 


try { 
CensusData res = taskl.join(); 
if (res != null) 


return res; 
manager.deleteTask (task1); 
} catch (CancellationException ex) { 


} 


Cry 
CensusData res = task2.join(); 
if (res != null) 


return res; 
manager.deleteTask (task2); 
} catch (CancellationException ex) { 
} 
return null; 
} 
} 


3. ListTask 类 
ListTask 类 扩展 了 RecursiveTask 类 ， 采 用 一 个 censusData 对 象 列 表 作为 参数 。 我 们 将 使 
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用 该 任务 来 实现 fingal1 () 操 作 。 该 任务 和 IndiviqualTask 任务 非常 相似 ， 都 使 用 相同 的 属性 ， 
但 是 它们 在 compute () 方 法 上 有 所 不 同 。 

首先 ， 初始 化 一 个 List 对象 以 返回 结果 并 且 校 验 任务 要 处 理 的 元 素数 量 。 如 果 任 务 要 处 理 的 元 
素数 量 小 于 size 属性 ， 将 满足 筛选 器 指定 标准 的 所 有 对 象 添加 到 结果 列表 中 。 


@Override 
protected List<CensusData> compute() { 
List<CensusData> ret = new ArrayList<CensusData>(); 


List<CensusData> tmp; 


if (end .~ "start <= sizé) { 


for (int i = start; i < end; i+t++) { 
CensusData censusData = datalil]; 
if (Filter.filter(censusData, filters)) { 


ret.add(censusData); 
} 


如 果 要 处 理 的 项 数 多 于 size 属性 ， 将 创建 两 个 子 任务 来 处 理 其 中 各 一 半 的 元 素 。 


int mid = (start + end) / 2; 

ListTask taskl = new ListTask(data, start, mid, manager, size, 
filters); 

ListTask task2 = new ListTask(data, mid, end, manager, size, filters); 


然后 ， 将 新 创建 的 任务 添加 到 任务 管理 顺 并 且 删 除 原来 的 实际 任务 。 该 实际 任务 并 不 会 被 撤销 ， 
而 其 子 任务 会 被 撤销 ， 如 下 所 示 : 


manager.addTask (task1); 
manager.addTask (task2); 
manager.deleteTask (this); 


然后 ,使 用 fork () 方 法 以 异步 方式 将 任务 发 送 给 ForkJoinPool， 并 是 使 用 quietlyJoin() 
方法 等 待 其 执行 结束 。 

taskl.fork(); 

task2 .fork ty 


task2.gquietlyJoin(); 
taskl .gquietlyJoin(); 


然后 ， 从 TaskManager 中 删除 子 任务 。 


manager.deleteTask (task]1); 
manager.deleteTask (task2); 


现在 , 使 用 join () 方 法 获取 任务 结果 。 如 果 一 个 任务 抛 出 了 未 校 验 异 常 ， 那 么 它 将 被 传播 而 不 
经 特殊 处 理 ， 并 且 会 直接 忽略 撤销 操作 。 


try { 
tmp = taskl.join(); 
让 (tI = MTL) 


ret.addAll (tmp); 
manager.deleteTask (task1); 
} catch (CancellationException ex) { 


} 
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Cry :二 
tmpb = task2.join(); 
if (tmp != null) 


ret.addAll (tmp); 
manager.deleteTask (task2); 
} catch (CancellationException ex) { 


小 


4. concurrentSearch 类 


ConcurrentSearch 类 实现 了 findany () 和 findAl1l () 方 法 。 这 两 个 方法 与 串 行 版 本 的 相应 方 


法 有 着 相同 的 接口 。 从 内 部 来 看 ， 它 们 初始 化 raskManager 对 象 和 第 一 个 任务 ， 并 有 


方法 将 其 发 送 给 默认 的 ForkJoinPool， 然 后 等 待 任务 结束 并 且 输 出 结果 。 下 面 是 f 
的 代码 。 


public class ConcurrentSearch { 


public static CensusData findAny (CensusDatal[] data, 
List<FilterData> filters, int size) { 
TaskManager manager=new TaskManager();} 
IndividualTask task=new IndividualTask (data, 0, data.length, 
manager, size, filters); 
ForkJoinPool .commonPool () .execute (task); 
Gry 
CensusData result=task.join(); 
if (result!=null) { 
System.out .println("Find Any Result: "+result.getCitizenship()); 
return result; 
} catch (Exception e) { 
System.err.println("findAny has finished with an error: "+ 
task.getException() .getMessage()); 
} 


return null; 


下 面 是 fingA1l1 () 方 法 的 代码 。 


public static CensusData[] findAll (CensusData[] data, 
List<FilterData> filters, int size) { 
List<CensusData> results; 
TaskManager manager=new TaskManager ();} 
ListTask task=new ListTask (data,0,data.length,manager, 
size,filters); 
ForkJoinPool.commonPool () .execute (task); 
try { 
results=task.join(); 
return results; 
} catch (Exception e) { 
System.err.println("findAny has finished with an 
error: " + task.getException() .getMessage()); 


} 


return null; 


[使 用 sxecute 
ingdAny () 方 法 


5. concurrentMain 类 
ConcurrentMain 类 用 于 测试 目标 筛选 如 的 并 发 版 本 。 它 和 serialMain 类 似 , 只 是 采用 了 各 种 
并 发 版 本 的 操作 。 


7.3.4 对 比 两 个 版 本 


为 了 比较 筛选 算法 的 串 行 版 本 和 并 发 版 本 ， 我 们 分 六 种 情形 进行 测试 。 
口 测试 1: 测试 findqany () 方 法 ， 查 找 一 个 对 象 ， 它 在 censusData 数组 中 的 第 一 个 位 置 。 
口 测试 2: 测试 findany () 方 法 ， 查 找 一 个 对 象 ， 它 在 censusData 数组 的 最 后 一 个 位 置 。 
口 测试 3: 测试 fingany () 方 法 ， 查 找 一 个 不 存在 的 对 象 。 
口 测试 4: 在 错误 情况 下 测试 fingdany () 方 法 。 
口 测试 5: 在 正常 情况 下 测试 fingA11 () 方 法 。 
口 测试 6: 在 错误 情况 下 测试 fijngA1l1 () 方 法 。 
对 于 算法 的 并 发 版 本 ， 我 们 测试 了 size 参数 的 3 组 不 同 取 值 ， 该 参数 确定 了 一 个 任务 在 不 分 割 
成 两 个 子 任务 时 所 能 处 理 的 最 大 元 素数 。 测 试 使 用 的 最 大 阔 值 为 10、200、2000 和 4000 个 元 素 。 
采用 JMH 框架 执行 这 些 示 例 ， 该 框架 允许 在 Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测试 的 框 
架 是 比较 好 的 解决 方案 , 它 直接 用 currentTimeMillis () 方 法 或 者 nanoTime () 方 法 度量 时 间 。 在 
两 种 不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 
口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 
器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 
有 四 个 核 。 
与 其 他 例子 相同 ， 以 毫秒 为 单位 度量 执行 时 间 。 首 先 给 出 在 AMD 架构 上 的 运行 结果 。 


四 


AMD 架构 
测试 1 2.374 8.041 5.434 4.802 9.339 串 行 版 本 
测试 2 86.049 75.872 57.954 32.56 32.876 并 发 版 本 
测试 3 58.322 70.562 22.947 30.831 27.033 并 发 版 本 
测试 4 0.65 15 090.17 259.597 8.585 5.987 串 行 版 本 
测试 5 60.129 42.979 44.81 22.741 21.287 并 发 版 本 
测试 6 0.697 14 279.35 256.271 9.365 4.842 串 行 版 本 


在 Intel 架构 上 运行 的 结果 如 下 。 
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Intel 架构 
NN ps 并 发 版 本 并 发 版 本 并 发 版 本 并 发 版 本 er 
di Me 规模 =10 规模 =200 规模 =2000 ”| ”规模 =4000 可 以 
测试 1 0.796 8.896 3.253 2.08 2.422 串 行 版 本 
测试 2 31 006 41.312 32.974 14.407 14.55 并 发 版 本 
测试 3 15.076 25.068 9.55 10.729 9.77 并 发 版 本 
测试 4 0.378 10 664.607 106.349 4.699 2.898 串 行 版 本 
测试 5 13.291 18.037 25.061 10.262 8.937 并 发 版 本 
测试 6 0.352 10 901.387 91.998 5.246 2.24 串 行 版 本 
根据 上 述 表格 ， 可 以 得 出 如 下 结论 。 
口 处 理 相对 少量 的 元 素 时 ， 算 法 的 串 行 版 本 具有 更 好 的 性 能 。 


7.4 第 三 个 例子 : 归并 排序 算 


口 处 理 所 有 元 素 或 者 其 中 的 一 音 
口 在 错误 情况 下 ,算法 的 上 

版 本 在 这 种 情况 下 性 能 非常 糟糕 。 
在 这 种 情况 下 ， 并 发 处 到 


并 不 会 总 能 


升 性 能 。 


法 


分 时 ， 算 法 的 并 发 版 本 具有 更 好 的 性 能 。 
lL 行 版 本 要 比 并 发 版 本 的 性 能 更 好 。 当 size 参数 的 值 较 小 时 ， 并 发 


归并 排序 算法 是 一 种 非常 流行 的 排序 算法 ， 通 常 使 用 分 治 方法 实现 ， 因 此 它 是 一 个 用 于 测试 
Fork/Join 框架 的 很 好 的 候选 算法 。 


为 实现 归并 排序 算法 ,我 们 将 未 提 


的 子 列 表 合 并 以 产 4 
只 不 过 其 中 所 有 的 元 素 者 


排序 后 的 子 列表 ， 


为 了 编写 该 算法 的 六 
最 重要 的 特征 是 ， 它 们 者 


了 Java 8 


方法 和 parallelSort () 方 法 来 比较 执行 时 间 。 


7.4.1 共享 类 


正如 前 玫 


品名 称 、 分 纪 


量 、 销 售 排名 、 浏 览 数量 、 相 似 产 品 编码 ， 以 及 每 个 产品 所 
AmazonMetaData 类 来 存放 产品 信息 。 该 类 声明 了 必要 的 
类 实现 了 comparable 接口 以 对 比 该 类 的 两 个 实 伪 
了 实现 compare () 方 法 , 使 


序 的 列表 划分 为 仅 有 一 个 元 素 的 子 列表 。 然 后 ， 将 这 些 未 排序 
直到 将 所 有 这 些 子 列表 处 理 完毕 。 
了 进行 了 排序 处 理 。 
F 发 版 本 ， 我 们 采用 
含有 一 个 可 在 所 有 子 任务 执行 完 5 

为 了 测试 上 述 实现 方法 ， 我们 使 用 了 亚马逊 产品 联 
“Amazon product co-purchasing network metadata” 下 载 )。] 


排名 列表 。 我 们 将 测试 该 算法 的 各 个 版 本 ,对 该 产品 列表 进行 排序 ， 并 目 


最 后 得 到 最 初 的 唯一 列表 ， 


P 引 入 的 countedCompleter 任务 。 这 类 任务 
# 之 后 执行 的 方法 。 

合 采 购 网 络 元 数据 ( 可 以 在 SNAP 搜索 
我 们 创建 了 一 个 含有 542 184 个 产品 的 销售 
| 使 用 Arrays 类 的 sort () 


j 提 到 的 ， 已 经 构建 了 一 个 含有 542 184 款 Amazon 产品 的 列表 ， 包 括 每 个 产品 的 ID 、 产 


属 的 类 别 编码 。 我 们 实现 了 


盟 性 以 及 获取 和 设置 这 些 属 性 值 的 方法 。 该 
|。 我 们 想 要 按照 销售 排名 以 升序 排列 这 些 元 素 。 为 
有 Long 类 的 compare () 方 法 比较 两 个 对 象 的 销售 排名 ， 如 下 所 示 : 
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public int compareTo (AmazonMetaData other) { 
return Long.compare (this.getSalesrank(), 
other.getSalesrank ()); 


} 
我 们 还 实现 了 AmazonMetaDataLoader 类 ， 它 提供 了 load() 方 法 。 该 方法 接收 含有 数据 文件 
的 路 径 作 为 参数 ， 返 回 含 有 所 有 产品 信息 的 amazonMetaData 对 象 数 组 。 


(让 为 了 集中 介绍 Fork/Join 框架 的 特性 ， 此 处 并 没有 给 出 这 些 类 的 源 代 码 。 


7.4.2” 串 行 版 本 


我 们 在 serialMergeSort 类 中 实现 了 归并 排序 算法 的 串 行 版 本 。serialMergeSort 类 实现 了 
算法 本 身 和 serialMetaData 类 ， 并 提供 了 测试 该 算法 的 main () 方 法 。 

1. serialMergeSort 类 

SerialMergeSort 类 实现 了 归并 排序 算法 的 串 行 版 本 。 它 提供 的 mergesort () 方 法 可 接收 如 下 

数 。 
口 含有 所 有 待 排序 数据 的 数组 。 
口 该 方法 要 处 理 的 第 一 个 元 素 ( 包含) 。 
口 该 方法 要 处 理 的 最 后 一 个 元 素 (不 包含 ) 。 

如 果 该 方法 仅 需 要 处 理 一 个 元 素 ， 则 其 立即 返回 。 否则 ， 它 将 两 次 递归 调用 mergeSsort () 方 法 。 
第 一 次 调用 处理 前 一 半 元 素 , 第 二 次 调用 处 理 后 一 半 元 素 。 最 后 , 调用 merge () 方 法 合并 两 部 分 元 素 ， 
并 且 获 得 一 个 经 过 排序 的 元 素 列表 。 


public void mergeSort (Comparable datal[l], int start, int end) { 
if (end-start < 2) { 
return; 
} 
int middle = (end+start)>>>1; 
mergeSort (data, start,middle); 
mergeSort (data,middle,engd); 
merge (data,start,middle,end); 


} 
使 用 (end+start)>>>1 操作 符 获取 位 于 数组 中 间 位 置 的 元 素 ， 进 而 分 割 数组 例如， 如 果 有 15 
亿 个 元 素 〈 对 于 当前 的 内 存 芯片 来 说 并 非 不 可 能 )， 这 一 操作 仍然 适用 于 Java 数组 。 然 而 ， 采 用 
(end+start)/2 的 方法 将 溢出 ， 结 果 得 到 一 个 负数 值 的 数组 。 可 以 阅读 名 为 “Extra，Extra-Read All 
About It: Nearly All Binary Searches and Mergesorts are Broken” 的 文章 获取 有 关 该 问题 的 详细 解释 。 
merge () 方 法 将 两 个 元 素 列表 合并 以 得 到 一 个 排序 的 列表 。 该 方法 可 接收 如 下 参数 。 
口 含有 所 有 待 排序 数据 的 数组 。 
口 三 个 元 素 : start 、mid 和 end， 它 们 将 待 归 并 和 提 


mid-end ) 。 


NR 


下 


E 序 的 数组 划分 成 两 个 部 分 〈start-mid 和 
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我 们 创建 了 一 个 临时 数组 来 对 元 素 进 行 排序 ， 然 后 ， 人 处 理 列表 的 两 部 分 时 ,会 在 数组 中 对 元 素 进 


行 排 序 ， 并 且 在 原始 数组 相同 的 位 置 上 存放 已 排序 的 列表 。 如 下 述 代码 所 示 : 


private void merge (Comparable[] data, int start, int middle, 
int end) { 
int length=end-start+l1; 
Comparable[] tmp=new Comparable[length]; 
int i, j, index; 
i=start; 
j=middle; 
index=0; 
while ((i<middle) && (j<end)) { 
if (data[lil].compareTo(data[j])<=0) { 
tmp[index]=datal[il]; 
i++ 
} else { 
tmp[index]=data[j]; 
j++; 


} 
index++; 


} 


while (i<middle) { 
tmp[index]=datal[il]; 
i++} 
index++; 


} 


while (j<end) { 
tmp[index]=data[j]; 
j++; 
index++; 


} 
for (index=0; index < (end-start); index++) { 
data[lindex+start]=tmp[index]; 


} 


} 


2. serialMetaData 类 


SerialMetaData 类 提供 了 用 于 测试 算法 的 main () 方 法 。 每 个 排序 算法 将 执行 10 次 并 且 计 算 平 


均 执 行 时 间 。 首 先 ， 从 文件 中 加 载 数 据 并 且 创 建 该 数组 的 一 个 副本 。 


public class SerialMetaData { 


public static void main(String[] args) { 
for (int j=0; j<10; j++) 1{ 
Path path = Paths.get ("data","amazon-meta.csv"),; 


AmazonMetaData[] data = AmazonMetaDataLoader.load(path); 
AmazonMetaData data2[] = data.clone(); 
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然后 ， 使 用 Arrays 类 的 sort () 方 法 对 第 一 个 数组 进行 排序 。 


Date start, end; 


start = new Date(); 

Arrays.sort (data);} 

end = new Date(); 

System.out .println("Execution Time Java Arrays.sort(): "+ 
(end.getTime() - start.getTime())); 


接着 ,使 用 归并 排序 算法 实现 对 第 二 个 数组 的 排序 。 


SerialMergeSort mySorter = new SerialMergeSort (); 
start = new Date(); 
mySorter.mergeSort (data2, 0, data2.length); 
end = new Date(); 


System.out .println("Execution Time Java SerialMergeSort: " + 
(end.getTime() - start.getTime())); 


最 后 ， 检 查 发 现 排序 后 的 数组 相似 。 


for (int i = 0; i < data.length; i++) { 
if (data[il].compareTo(data2[i]) != 0) { 
System.err.println("There's a difference is position " + 
开学 


System.exit (-1); 
} 
} 
System.out .println("Both arrays are equal"); 
} 
} 
} 


7.4.3 并 发 版 本 


如 前 所 述 ， 我 们 将 使 用 Java 8 中 的 countedCompleter 类 作为 面向 Fork/Join 任务 的 基 类 。 该 类 
提供 了 某 种 机 制 , 当 其 所 有 子 任务 完成 执行 后 会 执行 某 个 方法 。 这 种 机 制 就 是 cncompletion () 方 法 。 
因此 ， 我 们 使 用 compute ( ) 方 法 分 割 数 组 ， 使 用 oncompletion () 方 法 将 子 列表 合并 成 一 个 经 过 排 
序 的 列表 。 

要 实现 的 并 发 版 解决 方案 有 下 述 三 个 类 。 

口 MergeSortTask 类 ,该 类 扩展 了 countedCcompleter 类 并 且 实 现 了 执行 归并 排序 算法 的 任务 。 
口 ConcurrentMergeSort 类 ， 该 类 启动 了 第 一 个 任务 。 

口 concurrentMetaData 类 ， 该 类 提供 了 main () 方 法 来 测试 归并 排序 算法 的 并 发 版 本 。 

1. MergeSortTask 类 

如 前 所 述 ， 该 类 实现 了 将 用 于 执行 归并 排序 算法 的 任务 。 该 类 用 到 了 以 下 属性 。 

口 存放 待 排序 数据 的 数组 。 

口 任务 必须 进行 排序 操作 的 这 部 分 数组 的 起 始 位 置 和 终止 位 置 。 
该 类 还 有 一 个 用 于 初始 化 其 参数 的 构造 函数 。 
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public class MergeSortTask extends CountedCompleter<Void> { 


private Comparable[] data; 
private int start, engd; 
private int middle; 


public MergeSortTask (Comparable[] data, int start, int engd, 
MergeSortTask parent) { 
super (parent);} 


this data. ss datas 
this start Sstast: 
this.end = endg; 


} 


如 果 起 始 索引 和 终止 索引 之 间 的 差距 大 于 或 等 于 1024， 那 么 使 用 compute () 方 法 ,将 人 有 


E 务 分 制 


成 两 个 子 任务 来 分 别处 理 原 集合 的 两 个 子 集 。 两 个 任务 采用 fork () 方 法 以 异步 方式 将 任务 发 送 给 


ForkJoinpPool。 否则 ,执行 SerialMergeSorg .mergeSort () 对 数组 (具有 小 于 或 等 于 1024 个 元 素 ) 


方法 。 如 下 述 代 码 所 示 : 


QOverride 
public void compute() { 
if (end - start >= 1024) { 


middle = (end+start)>>>1; 

MergeSortTask task1 = new MergeSortTask (data, start, middle, 
this); 

MergeSortTask task2 = new MergeSortTask (data, middle, engd, 
ti 

addToPendingCount (1) ; 

蕊 可 总 长 料 庆生 本 下 本 人 (水 六 

七 aSk2 .fork() 

} else { 
new SerialMergeSort() .mergeSort (data, start, end); 
tryComplete(); 


} 


在 我 们 的 例子 中 采用 oncompletion () 方 法 进行 归并 和 排序 操作 , 进而 获得 排序 后 的 列表 。 一 旦 
任务 完成 oncompletion () 方 法 的 执行 后 ， 它 将 在 其 父 任 务 的 层面 上 调用 trycomplete () 方 法 以 完 
成 该 任务 的 执行 。oncompletion () 方 法 的 源 代码 与 该 算法 串 行 版 本 的 merge () 方 法 非常 相似 。 代 码 


如 下 所 示 : 


@Override 
public void onCompletion(CountedCompleter<?> caller) { 
if (middle==0) { 
return; 
} 
int length = engd - start + 1; 
Comparable tmp[] = new Comparable[length]; 
Tt dy jt Aes 
i = start; 
j = middle; 


进行 排序 ,然后 调用 trycomplete() 方 法 。 子 任务 执行 完毕 之 后 ,该 方法 将 从 内 部 调用 oncompletion () 
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index = 0; 
while ((i < middle) && (j < end)) { 
if (datal[li] .compareTo(data[j]) <= 0) { 
tmp [indqex]l = datal[lil]; 
i++; 
} else { 
tmp [indqex] = datal[j]; 
j++; 
} 
index++; 
} 
while (i < middle) { 
tmp[index] = datal[lil]; 
i++} 
index++; 
} 
while (j < end) { 


tmp[index] = datal[lj]; 
j++; 
index++; 
} 
for (index = 0; index < (end - start); index++) { 
data[lindex + start] = tmplindex]; 


} 


} 


2. concurrentMergeSort 类 

在 并 发 版 本 中 ， 该 类 非常 简单 。 它 实现 了 mergeSort () 方 法 ,该 方法 接收 含有 待 排序 数据 的 数 
组 ， 以 及 起 始 索引 ( 该 值 总 是 为 0 ) 和 终止 索引 ( 该 值 总 是 为 数组 的 长 度 ) 作为 参数 。 此 处 选择 保持 
与 串 行 版 相同 的 接口 。 

该 方法 创建 一 个 新 的 MergeSortTask, 使 用 invoke () 方 法 将 其 发 送 给 默认 的 ForkJoinPool， 
该 方法 在 该 任务 完成 执行 且 数 组 已 被 排序 后 返回 。 


public class ConcurrentMergeSort { 


public void mergeSort (Comparable datal[l], int start, int end) { 


MergeSortTask task=new MergeSortTask (data, start, end,null); 
ForkJoinPool .commonPool () .invoke (task); 


} 
} 


3. ConcurrentMetaData 类 

ConcurrentMetaData 类 提供 了 main () 方 法 来 测试 归并 排序 算法 的 并 发 版 本 。 在 我 们 的 例子 中 ， 
该 类 的 代码 和 serialMetaData 类 的 代码 相当 ， 只 是 采用 了 相关 类 的 并 发 版 本 ， 并 且 使 用 Arrays . 
parallelSort () 方 法 而 非 Arrays.sort () 方 法 ， 因 此 此 处 不 再 给 出 该 类 的 源 代 码 。 
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7.4.4 对 比 两 个 版 本 


我 们 执行 归并 排序 算法 的 串 行 版 和 并 行 版 ， 比 较 这 两 个 版 本 的 执行 时 间 ， 并 且 比 较 了 使 用 
Arrays.sort 1() 方 法 和 Arrays.parallelSsort () 方 法 时 的 执行 时 间 。 
使 用 JMH 框架 执行 这 四 个 版 本 ， 该 框架 允许 在 Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测试 的 
框架 是 比较 好 的 解决 方案 ， 因 为 可 以 直接 使 用 currentTimeMillis() 或 者 nanoTime() 度 量 时 间 。 
在 两 种 不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 
口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 
器 有 两 个 核 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 
有 四 个 核 。 


下 面 给 出 的 是 对 含有 542 184 个 对 象 的 数据 集 进行 排序 计算 后 得 到 的 执行 时 间 ( 以 毫秒 为 单位 )。 
Arrays.sort () 串 行 版 归并 排序 Arrays.parallelSort () 并 行 版 归并 排序 
AMD 架构 858.1 1268.3 392.6 705.1 
Intel 架构 327.608 454.84 209.653 209.732 
可 以 得 出 下 述 结论 。 


口 使 用 Arrays .parallelSort () 方 法 可 以 得 到 最 佳 结果 。 对 于 串 行 算法 来 说 ，Arrays.sort () 
方法 比 我 们 的 实现 方法 在 执行 时 间 上 更 优 。 

口 就 我 们 的 实现 情况 来 说 ， 算 法 的 并 发 版 本 比 串 行 版 本 性 能 更 好 。 

我 们 可 以 用 加 速 比 来 比较 归并 排序 算法 串 行 版 本 和 并 发 版 本 的 执行 时 间 。 


dp 1268.3 
S serial 一 -1.80 
和 人 705.33 
S. 2 Tial NE 454.84 本 
四 298732 


concurrent 


7.5 ”Fork/Join 框架 的 其 他 方法 


在 本 章 的 三 个 例子 中 , 我 们 用 到 了 构成 Fork/Join 框架 的 类 的 很 多 方法 ,， 除 此 之 外 , 你 还 需要 了 解 
一 下 其 他 一 些 有 用 的 方法 。 

使 用 ForkJoinPool 类 的 execute() 方 法 和 invoke() 方 法 将 任务 发 送 给 池 。 还 可 以 使 用 另 一 
个 名 为 submit () 的 方法 。 它 们 之 间 的 主要 区 别 在 于 : execute () 方 法 将 任务 发 送 给 ForkuoinPool 
之 后 立即 返回 一 个 void 值 ; invoke () 方 法 将 任务 发 送 给 ForkJoinPool 后 ， 当 任务 完成 执行 后 方 
可 返回 ; 而 submit () 方 法 将 任务 发 送 给 ForkJoinPool 之 后 立即 返回 一 个 Future 对象, 用 以 控制 
任务 的 状态 并 且 获 得 其 结果 。 

本 章 所 有 示例 使 用 的 类 均 基 于 ForkJoinTask 类 ， 不 过 你 也 可 以 使 用 基于 Runnable 接口 和 
Callable 接口 的 ForkJoinPoo1l 任务 。 为 实现 这 一 目标 ， 可 以 使 用 submit () 方 法 。 该 方法 有 接收 
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Runnable 对 象 作为 参数 的 版 本 、 接 收 含 有 结果 的 Runnable 对 象 作为 参数 的 版 本 和 接收 callable 
对 象 作 为 参数 的 版 本 。 

ForkJoinTask 类 提供 了 get (long timeout, TimeUnit unit) 方 法 来 获取 某 个 任务 返回 的 
结果 。 该 方法 在 参数 中 指定 了 等 待 任务 结果 的 时 间 周 期 。 如 果 该 任务 在 这 一 时 间 周 期 结束 之 前 完成 了 
执行 ， 则 该 方法 返回 相应 结果 。 否 则 ， 该 方法 抛 出 一 个 TimeoutException 异常 。 

ForkJoinTask 类 为 invoke () 方 法 提供 了 一 种 替代 方案 ， 即 quietlyInvoke () 方 法 。 这 两 种 
方法 的 主要 区 别 在 于 , invoke () 方 法 返回 任务 执行 的 结果 或 者 在 必要 时 抛 出 异常 , 而 quietlyInvoke () 
方法 不 返回 任务 的 结果 ， 也 不 抛 出 任何 异常 。 后 者 与 示例 中 用 到 的 quietlyJoin() 方 法 相似 。 


7.6 ”小结 


分 治 设计 方法 是 一 种 非常 流行 的 方法 ， 可 以 用 于 解决 各 种 不 同 的 问题 。 你 可 以 将 原始 问题 分 割 成 
较 小 的 问题 ， 再 将 这 些 较 小 的 问题 分 割 成 更 小 的 问题 ， 直 到 它们 足够 简单 ， 可 以 被 直接 处 理 为 止 。 在 
Java 7 中 ，Java 并 发 API 引 和 人 了 一 种 特殊 的 执行 器 ， 它 是 专门 为 解决 此 类 问题 而 优化 定制 的 。 这 就 是 
Fork/Join 框架 。 它 基于 Fork 操作 创建 一 个 新 的 子 任务 ， 基 于 Join 操作 在 获取 结果 前 等 待 子 任务 结束 。 
采用 这 些 操 作 ，Fork/Join 任务 就 会 呈现 如 下 形式 : 


if ( problem.size() > DEFAULT_ SIZE) { 
childTaskl=new Task(); 
childTask2=new Task(); 

childTaskl1 .fork(); 
childTask2.fork(); 
childTaskResultsl=childTaskl1.join(); 
childTaskResults2=childTask2.join(); 
taskResults=makeResults (childTaskResults1l, childTaskResults2); 
return taskResults; 

else { 
taskResults=solveBasicPproblem(); 
return taskResults; 


} 

本 章 使 用 Fork/Join 框架 解决 了 三 个 问题 ，k-means 聚 类 算法 、 数 据 筛选 算法 和 归并 排序 算法 。 

本 章 使 用 了 API 提供 的 默认 ForkJoinPool， 并 且 创 建 了 一 个 新 的 ForkJoinPool 对 象 ， 还 用 
到 了 下 面 三 种 类 型 的 ForkJoinTasks。 
口 RecursiveAction 类 ， 用 作 那 些 不 返回 结果 的 ForkJoinTask 的 基 类 。 
口 RecursiveTask 类 ， 用 作 那 些 返回 结果 任务 的 基 类 。 
口 CountedCompleter 类 ， 用 作 那 些 当 所 有 子 任务 执行 完毕 后 需要 执行 某 个 方法 或 者 启动 另 一 

任务 的 任务 的 基 类 。 

下 一 章 将 介绍 在 处 理 超 大 规模 数据 集 时 , 如 何 使 用 MapReduce 编程 方法 运用 并 行 流 技术 获得 最 佳 

性 能 。 


一 
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使 用 并 行 流 处 理 大 规模 数据 
集 : MapReduce 模型 


毫 无 疑问 , Java 8 引入 的 最 重要 的 创新 是 lambda 表达 式 和 流 API。 流 是 可 以 以 顺序 方式 或 者 并 行 


方式 处 理 的 一 个 元 素 序列 。 可 以 应 用 中 间 操 作 转 换 流 ， 然 后 执行 最 终 计 算 以 获得 预期 结果 ( 列表 、 数 
组 、 数 值 等 ) 本章 将 讲述 下 述 主题 。 


口 流 的 简介 。 
口 第 一 个 例子 
口 第 二 个 例子 


: 数值 综合 分 析 应 用 程序 。 
: 信息 检索 工具 。 


8.1 流 的 简介 


流 就 是 一 个 数据 序列 〈 并 不 是 一 种 数据 结构 )， 可 以 以 顺序 方式 或 者 并 发 方式 应 用 某 一 操作 序列 
来 筛选 、 转 换 、 排 序 、 约 简 (reduce ) 或 组 织 这 些 元 素 ， 以 获得 某 一 最 终 对 象 。 例 如 ， 如 果 有 一 个 含 
有 员工 数据 的 流 ， 可 以 使 用 该 流 。 


口 获取 未 达到 


口 统计 员工 的 ， 
口 计算 在 某 个 区 域 居住 的 所 有 员工 的 平均 薪酬 。 


总 数 〈 这 是 一 项 开销 较 大 的 末端 操作 ) 。 


目标 的 员工 列表 。 


口 执行 任何 涉及 全 部 或 部 分 员工 的 操作 。 


流 在 很 大 程度 上 受 函 数 式 编程 (Scala 编程 语言 提供 了 一 种 非常 相似 的 机 制 ) 的 影响 , 可 与 lambda 
表达 式 一 起 使 用 。 流 API 类 似 于 C# 语 言 中 的 LINQ ( Language-Integrated Query 的 缩写 ) 查询 ， 在 某 


种 程度 上 ， 还 可 与 SQL 查询 相 比 较 。 


接 下 来 将 解释 流 的 基本 特征 ， 以 及 流 的 各 个 组 成 部 分 。 


8.1.1 流 的 基本 特征 
流 的 主要 特征 如 下 。 


口 流 并 不 存储 其 元 素 。 流 从 它 的 源 获 取 元 素 ， 并 且 推 送 这 些 元 素 通过 构成 管道 的 所 有 操作 。 
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口 可 以 以 并 行 方式 处 理 流 而 无 须 做 任何 额外 工作 。 创 建 流 时 ， 可 以 使 用 stream() 方 法 创建 一 
个 顺序 流 ， 或 者 使 用 parallelstream() 方 法 创建 一 个 并 行 流 。BaseStream 接口 定义 了 


sequential () 方 法 以 获取 顺序 流 ， 也 定义 了 parallel () 方 法 以 获取 并 行 流 。 顺 序 流 与 并 


行 流 可 以 互相 转换 ， 并 且 不 限 次 数 。 需 要 考虑 的 是 ,末端 的 流 操作 执行 完毕 时 ， 所 有 的 流 操 
作 都 将 按照 最 后 一 次 设置 进行 处 理 。 无 法 命令 流 去 顺序 执行 一 些 操作 ， 并 发 执行 另 一 些 操 
作 。 从 内 部 来 看 ，Oracle JDK 9 和 Open JDK 9 中 的 并 行 流 采用 了 Fork/Join 框架 的 一 种 实现 来 


执行 并 发 操作 。 


口 流 受 函数 式 编程 和 Scala 编程 语言 的 影响 很 大 。 你 可 以 使 用 新 的 lambda 表达 式 作为 定义 算法 
的 方式 ， 这 样 的 算法 在 针对 流 的 操作 中 执行 。 
口 流 不 可 重用 。 例 如 ， 从 某 个 值 列 表 中 获得 一 个 流 时 ， 该 流 只 能 使 用 一 次 。 如 果 要 在 同样 的 数 


据 之 上 执行 另 一 操作 ， 那 么 


需要 创建 男 一 个 流 。 


口 流 可 对 数据 做 延迟 处 理 。 除 非 必要 ， 否 则 流 并 不 会 获取 数据 。 正 如 稍 后 将 学 到 的 ， 每 个 流 都 


有 一 个 初始 源 ， 有 一 些 中 间 操 作 ， 还 有 一 个 末端 操作 。 只 有 末端 操作 需要 时 数据 才 会 被 处 


理 ， 因 此 流 的 处 理 直 到 执行 末端 操作 时 才 会 开始 。 


口 不 能 以 不 同方 式 访问 流 的 元 素 。 采 用 某 种 数据 结构 时 ， 可 以 访问 其 中 存储 的 某 个 特定 元 素 ， 


例如 指明 它 的 位 置 或 者 键 。 


流 操 作 通常 对 元 素 做 统一 处 理 ， 因 此 你 有 的 只 有 元 素 本 身 。 你 无 


法 知道 元 素 在 流 中 的 位 置 及 其 相 邻 元 素 。 对 于 并 行 流 而 言 ， 可 以 以 任何 顺序 处 理 元 素 。 
口 流 操作 并 不 允许 修改 流 的 源 。 例 如 ， 如 果 使 用 一 个 列表 作为 流 的 源 ， 那 么 可 以 将 处 理 结果 存 
放 在 新 列表 中 ， 但 是 不 可 以 添加 、 删 除 或 者 蔡 换 初始 列表 中 的 元 素 。 尽 管 听 起 来 很 受 限 制 ， 


但 是 这 一 特性 也 非常 有 用 ， 
修改 。 


8.1.2 流 的 组 成 部 分 
流 有 三 个 不 同 的 部 分 。 


因为 返回 从 内 部 Collection 创建 的 流 时 不 用 担心 该 列表 会 被 调用 者 


口 生成 供 流 使 用 的 数据 的 来 源 。 
口 0 个 或 者 多 个 中 间 操 作 ， 这 些 操作 产生 另 一 个 流 作 为 输出 。 


D 生成 对 象 的 末端 操作 ， 该 对 象 可 以 是 一 个 简单 对 象 ， 也 可 以 是 一 个 类 似 数组 、 列 表 或 者 喻 希 


表 的 Collection。 也 可 以 存在 不 产生 任何 显 式 结果 的 末端 操作 。 


1. 流 的 来 源 


流 的 来 源 可 产生 将 由 stream 对 象 处 理 的 数据 。 可 从 多 个 数据 源 创建 一 个 流 。 例 如 在 Java 8 中 ， 


Collection 接 口 包括 了 生成 顺序 流 的 stream() 方 法 ,以 及 生成 并 行 流 的 parallelStream() 方 法 。 
这 样 生 成 的 流 所 能 处 理 的 数据 可 以 来 自 几乎 所 有 在 Java 中 实现 的 数据 结构 ， 例 如 列表 ( ArrayList、 


LinkedList 等 )、 集 合 ( Hashset、 


EnumSet )， 甚 至 并 发 数据 结构 (LinkedBloFmackingDeque、 


PriorityBlockingQueue 等 )。 男 一 种 可 以 生成 流 的 数据 结构 是 数组 。Array 类 含有 四 种 版 本 可 从 


数组 产生 流 的 stream() 方 法 。 如 一 


将 一 个 int 数值 型 数组 传递 给 该 方法 ， 它 将 生成 Int stream。 


这 实现 的 是 一 种 特殊 的 流 ， 用 于 人 处理 整 型 数值 ( 你 依然 可 以 使 用 stream<Integer> 替 代 IntStream， 
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但 是 性 能 可 能 会 比较 差 )。 
与 此 类 似 ， 还 可 以 从 long [1] 数组 或 gouble[] 数 组 创建 LongStream 或 者 DoubleStream。 当 


然 ， 如 果 向 stream() 


方法 传递 一 个 对 象 数组 ， 将 获得 一 个 同样 类 型 的 通用 流 。 在 本 例 中 并 没有 


parallelStream() 方 法 ,但 是 一 旦 获得 了 该 流 ,就 可 以 调用 由 Basestream 接 口 定义 的 parallel () 
方法 ， 将 顺序 流转 换 成 为 并 发 流 。 

流 API 还 提供 了 另 一 个 有 用 的 功能 , 即 可 以 生成 流 并 且 按 照 流 的 方式 处 理 目录 或 者 文件 中 的 内 容 。 
File 类 提供 了 多 种 使 用 流 人 处理 文件 的 方法 。 例 如 ，fina() 方 法 返回 一 个 含有 Path 对 象 的 流 ， 其 中 
含有 文件 树 中 满足 特定 条 件 的 文件 。 list () 方 法 返回 一 个 Path 对 象 流 , 其 中 含有 关于 某 个 目录 的 内 


容 。walk () 方 法 返回 一 
它 创建 了 一 个 String 对 和 象 流 ， 其 中 含有 文件 的 各 个 行 ， 这 样 就 可 以 使 用 一 个 


方法 是 1ines () 方 法 ， 


个 Path 对 象 流 , 使 用 深度 优先 算法 处 理 目 录 树 中 的 所 有 对 象 。 但 是 最 有 用 的 


流 处 理 文件 的 内 容 。 遗 憾 的 是 ， 以 上 提 到 的 方法 在 并 行 处 理 时 性 能 都 很 糟糕 ， 除 非 有 成 和 上 万 的 元 素 


(文件 或 者 行 )。 


同样 ,可 以 使 用 stream 接口 提供 的 两 个 方法 来 创建 流 , 即 generate() 方 法 和 iterate() 方 法 。 


generate() 方 法 接收 


j 某 一 对 象 类 型 参数 化 的 supplier 作为 参数 ， 生 成 该 类 型 对 象 的 一 个 无 限 顺 


序 流 。supplier 接口 中 含有 get () 方 法 。 每 当 流 需要 一 个 新 的 对 象 时 ， 就 会 调用 该 方法 来 获取 流 的 
下 一 个 值 。 如 前 所 述 ， 流 以 一 种 延迟 方式 处 理 数 据 。 因 此 毫 无 疑问 ,， 流 本 质 上 就 是 无 限 的 。 你 可 以 使 
用 其 他 方法 转换 该 无 限 流 。iterate() 方 法 与 之 类 似 , 但 是 对 于 这 种 情况 ,该 方法 会 接收 一 个 种 子 和 
一 个 UnaryOperator。 第 一 个 值 是 将 Unaryoperator 应 用 于 该 种 子 的 结果 ， 第 二 个 值 是 将 
UnaryOperator 应 用 于 第 一 个 结果 所 产生 的 结果 ， 以 此 类 推 。 由 于 性 能 方面 的 问题 ， 在 并 发 应 用 程 
序 中 应 该 尽 可 能 避免 使 用 该 方法 。 

还 有 更 多 流 的 源 ， 如 下 所 示 。 


口 Randqom. ints()、 


ge 


口 String.chars(): 它 返回 一 个 Intstream， 其 中 含有 string 的 char 值 。 


Random.doubles () 或 者 Random.1ongs () : 这 些 方法 分 别 返回 IntStream、 


Doublestream 和 LongStream， 其 中 分 别 带 有 各 自 类 型 的 伪 随 机 值 。 你 可 以 指定 随机 数 的 
数值 范围 ， 或 者 你 想 要 获得 的 随机 值 的 个 数 。 例 如 ， 你 可 以 使 用 new Random. ints (10,20) 
来 生成 10 到 20 之 间 的 伪 随 机 数 。 


型 的 伪 随机 值 ， 


口 splittableRandom: 该 类 提供 了 与 Random 类 相同 的 方法 ， 可 生成 int 、double 和 long 


但 是 该 类 更 适合 用 于 并 行 处 理 。 可 以 查看 JavaAPI 文 档 了 解 该 类 的 详细 情况 。 


口 Stream.concat () 方 法 : 该 类 接收 两 个 流 作 为 参数 ， 并 且 创 建 出 一 个 新 的 流 ， 将 第 二 个 流 


的 元 素 接 在 第 一 个 流 的 元 素 的 后 面 。 
还 可 以 用 其 他 一 些 源 生成 流 ， 但 是 我 们 认为 那些 来 源 并 不 重要 。 


2. 中 间 操 作 


中 间 操 作 最 重要 的 特征 在 于 它 将 另 一 个 流 作为 结果 返回 。 输 入 流 和 输出 流 的 对 象 可 以 是 不 同类 型 


a 


的 ， 但 是 中 间 操 作 总 可 以 生成 新 流 。 一 个 流 可 以 有 0 个 或 者 多 个 中 间 操 作 。stream 接口 提供 的 最 重 
要 的 中 间 操 作 是 如 下 几 项 。 
D aistinct(): 该 方法 返回 一 个 含有 唯一 值 的 流 ， 所 有 重复 元 素 都 将 被 去 除 。 
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口 filter (): 该 方法 返回 一 个 含有 满足 特定 标准 的 元 素 的 流 。 
口 flatMap () : 该 方法 用 于 将 一 个 关于 流 的 流 (例如 一 个 关于 列表 、 集 合 等 的 流 ) 转换 成 单个 流 。 
口 Limit () : 该 方法 返回 一 个 流 ， 其 中 最 多 包含 指定 数目 的 原始 元 素 ， 从 第 一 个 元 素 起 按照 相 
遇 顺 序 选取 。 
口 map () : 该 方法 用 于 将 流 的 元 素 从 一 种 类 型 转换 成 另 一 种 类 型 。 
口 beek () : 该 方法 返回 相同 的 流 ， 只 是 需要 执行 一 些 代码 ， 通 常用 于 记录 日 志 信 息 。 
口 skip () : 该 方法 忽略 了 流 的 前 若干 个 元 素 ( 具体 数值 以 参数 方式 传递 ) 。 
口 sorted(): 该 方法 对 流 的 元 素 进行 排序 。 
3. 末端 操作 
末端 操作 将 某 个 对 象 作 为 结果 返回 ， 而 绝 不 会 返回 一 个 流 。 一 般 来 说 ， 所 有 流 都 会 以 一 个 末端 操 
作 结 束 ， 而 该 末端 操作 返回 的 是 整个 操作 序列 的 最 终结 果 。 最 重要 的 末端 操作 有 如 下 几 项 。 
口 collect () : 该 方法 提供 了 一 种 约 简 源流 中 元 素数 目的 方法 ， 以 某 种 数据 结构 组 织 该 流 的 元 
素 。 例 如 ， 你 可 以 按照 任何 标准 对 流 的 元 素 进行 分 组 。 
口 count () : 该 方法 返回 流 的 元 素数 目 。 
口 max() : 该 方法 返回 流 的 最 大 元 素 。 
D min () : 该 方法 返回 流 的 最 小 元 素 。 
口 reduce () : 该 方法 将 流 的 元 素 转换 为 一 个 表示 该 流 的 唯一 对 象 。 
口 forEach ()/forEachordered() : 这 两 个 方法 将 某 项 操作 应 用 到 流 的 每 个 元 素 上 。 如 果 流 
已 经 有 了 定义 好 的 顺序 ， 那 么 第 二 个 方法 就 会 使 用 该 流 元 素 的 顺序 。 
口 finqaFirst()/findany(): 如 果 要 找 的 元 素 存 在 ， 这 两 个 方法 分 别 返 回 1 或 者 流 的 第 一 个 
元 素 。 
口 anyMatch()/allMatch()/noneMatch(): 它们 接收 一 个 谓词 作为 参数 ， 返 回 一 个 布尔 值 来 
表明 流 中 是 否 有 任意 、 全 部 或 者 没有 元 素 能 够 匹配 该 谓词 。 
口 toArray () : 该 方法 返回 一 个 含有 流 的 元 素 的 数组 。 


8.1.3 MapReduce 与 MapCollect 


MapReduce 是 一 种 编程 模型 , 用 于 在 由 大 量 以 集群 方式 工作 的 机 器 构成 的 分 布 式 环境 中 处 理 超大 
规模 数据 集 。 它 有 两 个 步骤 ， 通 常 通过 以 下 两 个 方法 实现 。 
口 Map: 这 一 步 对 数据 进行 筛选 和 转换 。 

口 Reduce: 这 一 步 对 数据 应 用 汇总 操作 。 

为 了 在 分 布 式 环境 中 执行 该 操作 ， 必 须 分 割 数据 ， 然 后 将 其 分 发 到 集群 中 的 各 台 机 器 上 。 该 编程 
模型 在 函数 式 编程 领域 已 经 使 用 很 长 时 间 了 。Google 近期 基于 该 原理 设计 了 一 种 新 的 框架 ， 而 且 在 
Apache 基金 会 中 ，Hadoop 项 目 作 为 该 模型 的 开源 实现 广 受 欢 迎 。 

Java 9 提供 的 流 操作 允许 编程 人 员 实 现 与 此 非常 类 似 的 结果 。stream 接口 定义 了 可 以 视 为 映射 
函数 的 中 间 操 作 (map () 、filter()、sorted()、skip() 等 ), 而 且 提 供 了 reduce() 方 法 作为 末 
端 操作 ， 其 目的 是 像 MapReduce 模型 的 约 简 操作 那样 对 流 的 元 素 进行 约 简 。 


178 第 8 章 使 用 并 行 流 处 理 大 规模 数据 集 : MapReduce 模型 


约 简 操作 的 主要 思想 是 基于 前 面 的 中 间 结 果 和 流 元 素 创 建 一 个 新 的 中 间 结 果 。 约 简 的 蔡 代 方法 
(也 称 为 可 变 约 简 ) 是 将 新 的 结果 项 整合 到 可 变 容器 中 ( 例如 将 其 添加 到 ArrayList )。 这 种 类 型 的 
约 简 通过 collect () 操 作 执行 ， 因 而 称 之 为 MapCollect 模 型 。 

本 章 将 介绍 如 何 使 用 MapReduce 模型， 第 9 章 将 介绍 如 何 使 用 MapCollect 模型 。 


8.2 第 一 个 例子 : 数值 综合 分 析 应 用 程序 


拥有 一 个 大 规模 数据 集 时 ， 最 常见 的 需求 之 一 就 是 对 其 元 素 进行 处 理 ， 以 计算 某 些 特征 的 指标 。 
例如 ， 如 果 你 有 一 个 商店 的 已 售 产品 集合 ， 可 以 计算 已 售 产品 的 数量 、 每 种 产品 的 销量 ， 或 者 每 个 客 
户 对 每 种 产品 的 平均 购买 量 。 我 们 将 这 个 过 程 称 作 数 值 综合 分 析 。 

本 章 将 使 用 流 来 计算 UCI 机 器 学 习 资 源 库 的 Online Retail 数据 集 的 一 些 指标 。 该 数据 集 存储 了 
2010 年 1 月 12 日 到 2011 年 9 月 12 日 期 间 英 国 一 家 在 线 零 售 商店 的 交易 数据 。 

与 其 他 各 章 不 同 ， 本 例 先 介 绍 使 用 流 的 并 发 版 本 程序 ， 然后 介绍 如 何 实现 一 个 与 之 相当 的 串 行 版 
程序 ， 以 验证 并 发 性 也 使 用 流 提 升 了 性 能 。 正 如 在 本 章 开头 提 到 的 ， 要 注意 并 发 处 理 对 于 编程 人 员 来 
说 是 透明 的 。 


8.2.1 并 发 版 本 


数值 综合 分 析 应 用 程序 非常 简单 ， 其 组 成 部 分 如 下 所 示 。 

口 Record: 该 类 定义 了 文件 中 每 条 记录 的 内 部 结构 。 它 定义 了 每 条 记录 的 8 个 属性 以 及 用 于 
获取 和 设 定 这 些 属性 值 的 get () 和 set () 方 法 。 该 类 的 代码 非常 简单 ， 因 此 在 本 书 中 并 未 
给 出 。 

口 concurrentDataLoader: 该 类 用 于 加 载 含 有 数据 的 Online_Retail.csv 文件 ， 并 且 将 其 转换 

成 一 个 Recora 对 象 列 表 。 我 们 将 使 用 流 来 加 载 数据 并 完成 转换 。 

口 concurrentStatistics: 该 类 实现 了 用 于 数据 计算 的 各 项 操作 。 

口 ConcurrentMain: 该 类 实现 了 main () 方 法 ,来 调用 concurrentStatistics 类 的 各 项 操 
作 并 且 测 量 其 执行 时 间 。 

下 面 详细 介绍 一 下 其 中 后 三 个 类 。 

1. concurrentDataLoader 类 

ConcurrentDataLoader 类 实现 了 1oad() 方 法 , 该 方法 将 加 载 带 有 Online Retail 数据 集 的 文件 
并 且 将 其 转换 成 一 个 Recora 对 象 列 表 。 首 先 , 使 用 Files 类 的 readAllLines () 方 法 加 载 该 文件 ， 
并 且 将 其 内 容 转 换 为 一 个 字符 串 列表 。 该 文件 的 每 一 行 都 将 被 转换 为 该 列表 的 一 个 元 素 。 


public class ConcurrentDataLoader { 


public static List<Record> load(Path path) throws IOException { 
System.out .println("Loading data"); 


List<String> lines = Files.readAllLines (path); 


然后 ， 通 过 对 该 流 应 用 必要 的 操作 以 得 到 Recora 对 象 列表 。 
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List<Record> records = lines.parallelStream() 
.Skip(1) .map(1 -> 1.split(";")) 
.map(t -> new Record(t)) 
.Collect (Collectors.toList () ) ; 


在 这 里 用 到 的 操作 有 如 下 几 项 。 

口 barallelSttream(): 创建 一 个 并 行 流 来 处 理 该 文件 的 所 有 行 。 

D skip(1): 忽略 该 流 的 第 _ 页 ; 在 本 例 中 ， 即 文件 的 第 一 行 ， 其 中 包含 了 文件 的 头 信息 。 

口 map (1 一 1.split(";")): 对 String[] 数 组 中 的 各 个 字符 串 进行 转换 ， 用 ;字符 分 割 各 
行 。 使 用 lambda 表达 式 ， 其 中 1 代表 输入 参数 ， 而 1.split () 将 生成 关于 这 些 字符 串 的 数 
组 。 在 一 个 字符 串 的 流 中 调用 该 方法 ,将 生成 一 个 string[] 流 。 

口 map(t 一 new Record(t)): 使 用 Record 类 的 构造 函数 将 每 个 字符 串 数组 转换 成 一 个 

Record 对 象 。 使 用 一 个 lambda 表达 式 ， 其 中 上 代表 字符 串 数组 。 在 一 个 关于 string[] 的 

流 中 调用 该 方法 ， 生 成 一 个 Recorda 

口 collect (collectors.toList() ): 该 方法 将 流转 换 成 一 个 列表 。 第 9 章 会 更 详细 地 介绍 

collect () 方 法 。 

如 你 所 见 ， 我们 以 一 种 紧凑 、 优 雅昌 并 发 的 方式 完成 了 转换 ， 而 且 并 没有 用 到 任何 线程 、 任 务 或 
者 框架 。 最 后 ， 返 回 Record 对 象 列表 ， 如 下 所 示 : 


return records; 
} 
} 


2. concurrentStatistics 类 
ConcurrentStatistics Ss 有 七 种 操作 可 用 于 获得 
有 关 数 据 集 的 信息 ， 下 面 分 别 进行 介绍 。 


@ 来 自 英国 的 客户 
该 方法 的 主要 目的 是 获得 每 位 英国 客户 订购 的 产品 数量 。 
该 方法 的 源 代码 如 下 : 


public static void customersFromUnitedKingdom(List<Record> records) { 
System.out .Println ("ww 光大 光 宙 宙 太 尖 宙 兴 大 涡 尖 兴 兴 兴 砍 大兴 宙 山内 六 光大 大大 山 光 六 丰 大 大 大 轴 呈 ) 了 


System.out.println("Customers from UnitedKingdom"); 

Map<String, List<Record>> map = records.parallelStream() .filter(r -> 
r.getCountry() .equals ("the United 
Kingdom")) .collect (Collectors.groupingBy (Record: :getCustomer)); 


map.forEach((k, 1) -> System.out.println(k + ": "+ 1.size())); 


System.out Println("* 火 淡淡 火 火炎 火 火 类 火炎 类 火炎 类 火炎 类 类 火炎 火炎 炎炎 类 炎炎 大 类 次 大 炎 次 大 类 大昌 ) 和 
。 。 L ’ 


} 

该 方法 接收 Record 对 象 的 列表 作为 输入 参数 ,首先 ,使 用 流 获取 一 个 concurrentMap<String,， 
List<Record>> 对 象 ， 其 中 有 客户 ID 以 及 含有 每 个 客户 相关 记录 的 列表 。 该 流 首先 从 parallel- 
Stream() 方 法 创建 一 个 并 行 流 ,然后 ,使 用 filter () 方 法 选择 那些 country 属性 值 为 ' the United 
Kingdom' 的 Record 对象。 最 后 ， 使 用 collect () 方 法 ,传递 Collectors.groupingByConcurrent () 
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方法 的 功能 , 按照 job 属性 的 取 值 对 流 的 实际 元 素 进行 分 组 。 需 要 考虑 的 是 groupingByConcurrent () 
方法 是 无 序 的 收集 器。 收集 到 列表 中 的 记录 可 以 以 任意 顺序 排列 ， 而 非 原 始 顺序 ( 和 简单 的 
groupingBy () 收集 器 不 同 )。 
一 旦 获得 了 concurrentMap 对 象 ， 就 可 以 使 用 forEach () 方 法 将 信息 输出 到 屏幕 。 

@ 来 自 英国 的 订单 的 产品 数量 

该 方法 的 主要 目的 是 获得 来 自 英 国 的 订单 的 产品 数量 的 统计 信息 〈 最 大 值 、 最 小 值 和 平均 值 )。 

该 方法 的 源 代 码 如 下 : 


public static voidq quantityFromUnitedKingdom(List<Record> records) { 


System.out .println("*W 炎 火炎 大 大 大 灾 大 灾 兴 大 大 大 突 灾 灾 大 大 大 大 实 内 央 闪 大 大 大 突 大 大 大大 大大 实 大 大 大 中 】 和 

System.out.println("Quantity from the United Kingdom"); 

DoubleSummaryStatistics statistics = records.parallelStream() 
.filter(r -> r.getCountry() .equals ("the United Kingdom")) 
.collect (Collectors.summarizingDouble (Record: :getQuantity)); 


System.out.println("Min: " + statistics.getMin()); 

System.out .println("Max: " + statistics.getMax()); 

System.out .println("Average: " + statistics.getAverage()); 
( 


System.out .println 


该 方法 接收 Record 对 象 列 表 作为 输入 参数 , 并 且 使 用 流 来 获取 带 有 统计 信息 的 DoubleSummary- 
Statistics 对 象 。 首 先 , 使 用 parallelstream() 方 法 获取 并 行 流 。 然 后 , 使 用 filter () 方 法 获 
取 来 自 英 国 的 记录 。 最 后 ， 使 用 以 collectors .summarizingDouble() 为 参数 的 collect () 方 法 
获取 DoubleSummaryStatistics 对 象 ,该 类 实现 了 DoubleConsumer 接口 ,并 且 收 集 在 accept () 
方法 中 接收 到 的 数值 的 统计 数据 。 该 流 的 collect () 方 法 在 内 部 调用 了 accept () 方 法 。Java 还 提供 
了 IntSummaryStatistics 类 和 LongSummaryStatistics 类 ， 同 样 也 是 为 了 从 int 型 和 long 
型 数值 中 获取 统计 数据 。 

本 例 使 用 max() 、min() 和 average () 方 法 分 别 获 取 最 大 值 、 最 小 值 和 平均 值 。 

@ 订购 产品 的 国家 

该 方法 的 主要 目的 是 获取 订购 了 ID 为 85123A 的 产品 的 国家 列 寻 

该 方法 的 源 代码 如 下 : 


public static void countriesForProduct (List<Record> records) { 


中 类 火炎 炎炎 火炎 类 火炎 火炎 火炎 炎炎 炎炎 火炎 火炎 炎炎 类 类 类 火炎 炎炎 类 类 类 类 类 炎炎 类 大曲 
’ 


Day 
[e] 


System.out Irintln("* 炎 火炎 火炎 炎炎 火炎 类 火炎 火炎 类 火炎 炎炎 大大 火炎 类 次 大 大 大 类 类 大大 太太 类 太太 大 类 日)】 >》 
。 。 了 


System.out .println("Countries for product 85123A"); 


records.parallelStream() .filter(r -> r.getStockCode() 
.equals("85123A")) .map ( -> 工 
.getCountry()) .Qistinct() .sorted() 
.forEachOrdered(System.out::println); 


System.out Println("* 炎 火炎 火炎 类 火炎 类 火炎 炎炎 火炎 火炎 炎炎 炎炎 炎炎 类 次 大 大 类 类 类 大 类 炎炎 类 太太 大大 日) >》 
。 。 ’ 


} 
该 方法 接收 一 个 Recorqd 对 象 列表 作为 输入 和 参数， 并且 使 用 parallelstream() 方 法 获取 并 行 
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流 。 然 后 , 使 用 filter() 方 法 仅 获取 与 该 产品 相关 的 记录 。 然 后 , 使 用 map ( ) 方 法 获取 一 个 string 
对 象 流 , 其 中 含有 与 记录 相关 的 国家 名 称 。 借 助 distinct () 方 法 , 仅 选 取 唯 一 值 , 而 借助 sorted() 
方法 ， 可 以 按照 字母 顺序 对 这 些 值 进行 排序 。 

最 后 ， 使 用 forEachordered () 方 法 输出 结果 。 请 注意 ， 此 处 不 要 使 用 forEach () 方 法 ， 因 为 
它 输出 的 结果 没有 特定 顺序 ， 这 将 使 sorted() 这 一 步 的 工作 成 为 无 用 功 。 元 素 顺 序 并 不 重要 时 ， 
forEach () 操作 就 很 有 有 用 了 。 对 于 并 行 流 来 说 ， 它 比 forEachordered() 方 法 的 处 理 速 度 更 快 。 

@ 产品 数量 

使 用 流 时 ， 最 常见 的 错误 之 一 是 试图 重用 流 。 我 们 会 展示 这 种 做 法 所 产生 的 错误 结果 。 该 方法 的 
主要 目的 是 获取 了 D 为 85123A 的 产品 记录 相关 的 最 大 和 最 小 产品 数目 。 

该 方法 的 第 一 个 版 本 是 尝试 重用 一 个 流 ， 其 源 代码 如 下 : 


public static void quantityForProduct (List<Record> records) { 


System.out Println("* 火 淡淡 火 火 火炎 火炎 火炎 类 火炎 炎炎 火炎 火炎 炎炎 火炎 炎炎 炎炎 大 类 次 大 类 次 类 大奖 大大 中 ) > 
。 。 ’ 


System.out .println("Quantity for Product"); 


IntStream stream = records.parallelStream() .filter(r -> 工 
.getStockCode() .equals ("85123A")) 
.mapToInt (r -> r.getQuantity()); 


System.out .println("Max quantity: " + stream.max() .getAsInt ()); 
System.out.println("Min quantity: " + stream.min() .getAsInt ()); 
System.out .print1n (ww 淡 兴 大 六 祷 容光 光 兴 兴 次 宙 兴 灾 尖山 兴 光 实 突 内 淆 为 认 真实 浴 兴 尖山 尖 淆 实 守 内 尖山 实 相 ) 


} 


该 方法 接收 一 个 Recora 对 象 列表 作为 输入 参数 。 首先 , 使 用 该 列表 创建 一 个 Intstream 对 象 。 
借助 parallelstream() 方 法 , 创建 一 个 并 行 流 。 然后 , 使 用 £ilter () 方 法 获取 与 产品 相关 的 记录 ， 
使 用 mapToInt () 方 法 将 一 个 Record 对 象 的 流转 换 成 一 个 Intstream 对 象 ， 用 getQuantity () 
方法 的 值 替 换 每 个 对 象 。 

借助 max() 方 法 ,可 以 用 该 流 获取 最 大 值 ， 而 借助 min() 方 法 ,可 以 获取 最 小 值 。 如 果 再 次 执行 
该 方法 ， 将 立刻 得 到 IllegalstateException 异常 ,， 并且 获 得 “已 经 对 流 进行 操作 ”或 者 “ 流 已 
关闭 ”的 消息 。 

可 以 通过 创建 两 个 不 同 的 流 来 解决 这 一 问题 ， 
最 小 值 。 这 一 供 选 方案 的 源 代码 如 下 所 示 : 


public static void quantityForProductOk (List<Record> records) { 


中 一 个 流 用 于 获取 最 大 值 ， 而 另 一 个 流 用 于 获取 


NH+ 


System.out .print rn 
System.out .println("Quantity for Product Ok"); 
int value = records.parallelStream() .filter(r -> 


r.getStockCode() .equals ("85123A")) .mapToInt (r -> r.getQuantity()) .max() 
.getAsInt (); 
System.out .println("Max quantity: " + value); 


value = records.parallelStream() .filter(r -> r.getStockCode() 
.equals("85123A")) .mapToInt (r -> 工 
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.getQuantity()) .min() .getAsInt () ; 


System.out .println("Min quantity: " + value); 
System.out .println ("ww 内 火 淡 大 大大 突 央 内 尖 大 大 大 大 内 内 大 大 大 大 关内 内 内 大 大 大 突 突 内 大 大 大 大 磊磊 内 大 吕 】 


} 


男 一 个 供 选 方案 是 使 用 summaryStatistics() 方 法 获取 IntsummaryStatistics 对 象 ， 这 与 
上 文 所 给 出 的 方法 相同 。 

@ 多 个 数据 筛选 器 

该 方法 的 主要 目标 是 获取 至 少 满足 如 下 条 件 之 一 的 记录 数 。 
口 suantity 属性 值 大 于 50 的 记录 数 。 
口 unitPrice 属性 值 大 于 10 的 记录 数 。 

实现 该 方法 的 一 种 解决 方案 是 实现 一 个 筛选 器 来 检验 元 素 是 否 满 足 这 些 条 件 。 另 一 种 解决 方案 可 
以 借助 stream 接口 提供 的 concat () 方 法 。 源 代码 如 下 所 示 : 


public static void multipleFilterData(List<Record> records) { 


本 


System.out DPILIn 世 LI ( "大 火炎 火炎 火炎 火炎 炎炎 炎炎 火灾 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火灾 炎炎 灾 炎 炎炎 炎炎 炎炎 炎 目 ) 
。 。 


System.out .println("Multiple Filter"); 


Stream<Record> streaml = records.parallelStream!() 

.filter(r -> r.getQuantity() > 50) ; 
Stream<Record> stream2 = records.parallelStream() 

.filter(r -> r.getUnitPrice() > 10); 
Stream<Record> complete = Stream.concat (streaml, stream2); 


Long value = complete.parallel() .unordered() .map(r -> r 
.getStockCode()) .distinct() .count(); 


System.out.println("Number of products: " + value); 
System.out: Printinn( "太太 大 太太 大大 守 大 大 大 大 大 大 大 内 大 大 大 大 磊磊 守 大 六 大 大 大 大 大 大 大 大 大大 大 大大 大 号 】 


该 方法 接收 Record 对 象 列表 作为 输入 参数 。 首 先 ， 创建 两 个 流 ， 其 中 分 别 含 有 满足 上 述 条 件 的 
元 素 , 然后 使 用 concat () 方 法 将 它们 合并 成 单一 的 流 。concat () 方 法 创建 的 流 只 是 将 第 二 个 流 的 元 
素 直接 跟 到 第 一 个 流 的 元 素 后 。 出 于 这 种 原因 ， 对 于 最 后 的 流 ， 可 以 使 用 parallel () 将 其 转换 成 一 
个 并 行 流 ， 使 用 unordered() 方 法 获得 一 个 未 排序 的 流 以 便 在 对 并 行 流 应 用 aistinct () 方 法 时 获 
得 更 好 的 性 能 ， 使 用 map () 方 法 将 每 条 记录 转换 为 一 个 含有 产品 stockcode 的 字符 串 值 ， 使 用 
distinct () 方 法 获得 唯一 值 ， 使 用 count () 方 法 获得 流 中 的 元 素数 。 

这 并 不 是 最 优 的 解决 方案 。 我 们 只 是 用 它 展示 了 concat () 和 distinct () 方 法 如 何 工作 。 可 以 
使 用 下 面 的 代码 以 更 优 的 方式 实现 同样 的 结果 。 


public static void multipleFilterDataPredicate (List<Record> records) { 


System.out Println("* 炎 火炎 火炎 炎炎 火炎 炎炎 类 火炎 类 火炎 类 火炎 炎炎 大 类 次 大 大 大大 大大 大火 大 类 类 大 大 类 日】 >》 
。 。 ’ 


System.out .println("Multiple filter with Predicate"); 


Predicate<Record> pl = r -> r.getQuantity() > 50; 
Predicate<Record> p2 = r -> r.getUnitPrice() > 10; 
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Predicate<Record> pred = Stream.of (pl, p2) 


.reduce (Predicate: :or) .get (); 


long value = records.parallelStream() .filter(pred) .count (); 


System.out.println("Number of products: " + value); 
System.out .println (类 光大 大 光 光 炎炎 大 赤 赤 克 光 于 炎 赤 大 赤 赤 殉 炎炎 类 赤 赤 克 光 炎炎 光大 殉 光 殉 克 炎炎 大 类 赤 下 ) 


} 


我 们 创建 一 个 含有 两 个 谓词 的 流 ， 并且 通 过 Predicate: :or 操作 约 简 ， 进 而 构建 复合 谓词 ， 当 
任何 一 个 输入 谓词 为 true 时 ,该 谓词 都 为 true。 也 可 以 使 用 Predicate: :and 约 简 操作 构建 一 个 
复合 谓词 ， 如 此 当 所 有 输入 谓词 都 为 true 时 ， 复合 谓词 才 为 true。 


。 最 高 发 货 量 


该 方法 的 主要 目的 是 获取 发 货 量 最 高 的 10 张 发 货 
首先 ， 构 建 一 个 Map ， 其 键 为 发 货 单 的 ID ， 其 值 为 与 发 货 单 相关 联 的 所 有 记录 的 列表 。 


public static voidq getBiggestInvoiceAmmounts (List<Record> records) { 


System.out Println("* 炎 淡淡 火 火 火炎 火炎 火 火 类 火炎 炎炎 火炎 火炎 炎炎 火炎 类 火炎 火炎 炎炎 类 类 炎 大 类 炎 大 类 中 ); 


System.out .println("Biggest Invoice Ammounts"); 


Map<String, List<Record>> map = records.stream() .unordered() 


.parallel().collect (Collectors 
.groupingByConcurrent ( -> r.get1Id())); 


使 用 unordered() 方 法 删除 列表 现 有 的 顺序 ， 以 便 在 并 行 操作 时 获得 更 好 的 性 能 。 然 后 ,使 用 


parallel () 方 法 将 该 流转 换 成 并 行 流 ， 最 后 使 用 采用 了 groupingByConcurrent () 收集 器 的 


collect () 方 法 获得 最 终 的 Map。 


第 二 步 , 创建 关于 Invoice 对 象 的 ConcurrentLinkedDeque 数据 结构 。 这 部 分 源码 如 下 所 示 : 


ConcurrentLinkedDeque<Invoice> invoices= new ConcurrentLinkedDeque (); 
map.values() .parallelStream() .forEach( list -> { 
Invoice invoice = new Invoice(); 
invoice.setIid(list.get (0) .get1Id()); 
double ammount=list.stream() .mapToDoublel(r -> r.getUnitPrice()* r 


.getQuantity()) .sum(); 


invoice.setAmmount (ammount); 
invoice.setCustomerIid(list.get (0) .getCustomer ()); 


invoices.add (invoice); 


志学 


这 里 我 们 有 两 个 流 。 首 先 , 使 用 并 行 流 处 理 上 一 个 Map 中 的 所 有 值 。 对 于 每 个 含有 发 货 单 记录 的 
列表 , 使 用 发 货 单 ID 、 客 户 ID 和 发 货 总 量 等 属性 创建 一 个 Invoice 对 象 。 为 了 计算 每 个 发 货 单 的 总 
量 ， 使 用 另 一 个 流 和 mapToDouble () 方 法 将 每 条 记录 更 改 为 每 种 产品 的 单位 数量 和 unitPrice 属 


性 ， 并 且 


使 


用 sum( ) 方 法 对 最 终 stream 中 的 所 有 值 进 行 汇 总 。 之 所 以 使 用 concucrrentLinked- 


Deque 结构 , 是 因为 它 允 许 进行 并 发 插入 操作 并 且 不 会 引起 数据 竞争 ， 而 这 一 特性 对 于 当前 情况 非常 


重要 。 
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最 后 ， 获 取 发 货 量 最 高 的 10 张 发 货 单 ， 这 部 分 代码 如 下 所 示 : 


System.out .println("Invoices: "+invoices.size()+": "+map.getClass()); 
invoices.stream() .sorted(Comparator.comparingDouble 
(Invoice: :getAmmount) .reversed()).limit(10).forEach(i -> 


System.out .println("Customer:"+i.getCustomerId() + 


"; Ammount: "+ i.getAmmount ())); 
System Out .println (大 大 大 大 大 大 炎炎 大 类 赤 大 大 克 类 炎炎 克 赤 南光 炎炎 大 克 二 大 克 炎 大大 克 大 大 克 火炎 大 大 天 中 ) 了 


} 


使 用 concurrentLinkedDeque 数据 结构 创建 流 。 使 用 sorted() 方 法 进行 排序 , 以 将 发 货 量 最 
大 的 发 货 单 排 在 最 前 面 ， 将 发 货 量 较 小 的 发 货 单 放 在 后 面 。 再 使 用 1imit () 方 法 选取 发 货 量 最 高 的 


10 张 发 货 单 ， 并 且 使 用 forEach () 方 法 将 它们 输出 到 控制 台 。 这 里 是 对 排序 后 的 流 进 行 操作 ， 因 此 
采用 了 顺序 流 。 采用 并 发 流 并 不 会 带 来 更 好 的 性 能 。 


@ 单价 在 1 到 10 之 间 的 产品 
该 方法 的 主要 目标 是 获取 文件 中 单价 在 1 到 10 之 间 的 产品 数 。 
该 方法 的 源 代码 如 下 所 示 : 


public static void productsBetweenland10 (List<Record> records) { 


由 


System.,.out.iprintl1n ("WW 炎 尖 交大 大 大 兢 内 内 闪 大 磊磊 突 内 内 闪 大 大 大 突 突 央 闪 大 大 大 磊磊 央 大 大 大 大 大 大 大 大 可】 

System.out .println("Products between 1 and 10"); 

int count=records.stream() .unordered() .parallel() .filter(r -> (r 

.getUnitprice() >=1 ) && (Fr.getUnitPrice() <=10)) 

.map(i -> i.getStockCode()) .distinct() 
.mapToInt (a -> 1) .reduce(0, Integer::sum); 

System.out .println("Products between 1 and 10: "+count); 

System.out .println ("MwW 太 大兴 大 大大 兴 内 内 大 大 大大 大 内 内 兴 大 太太 突 大 内 关 大 大大 大 磊磊 闪 大 大 大 大 大 大 内 可 】 


} 


该 方法 接收 Record 对 象 列 表 作为 输入 参数 ,并 且 使 用 stream() unordered() 和 parallel () 
方法 获取 一 个 并 行 流 ， 且 不 受 该 流 现 有 的 排序 限制 。 然 后 ， 使 用 filter () 方 法 仅 选取 unitPrice 
值 在 1 到 10 之 间 的 记录 。 接 下 来 ， 使 用 map () 方 法 将 每 个 记录 替换 为 其 stockcode 属性 的 值 。 之 
后 ,使 用 aistinct () 方 法 删除 重复 记录 ， 。 用 map ( ) 方 法 将 每 个 取 值 转换 为 值 1。 最 后 ， 使 用 
reduce() 方 法 将 所 有 1 值 汇总 起 来 并 且 返 回 最 终结 


reduce () 方 法 的 第 一 个 参数 是 其 ID， pe | 参数 是 用 于 从 流 的 所 有 元 素 中 获取 单个 值 的 操作 。 

本 例 使 用 Integer: :sum 操作 。 第 一 次 是 对 初始 值 和 流 的 第 一 个 值 求 和 , 第 二 次 则 是 对 第 一 次 求 
和 的 结果 与 流 的 第 二 个 值 进行 求 和 ， 以 此 类 推 。 

3. concurrentMain 类 

ConcurrentMain 类 实现 了 main () 方 法 ， 用 于 测试 Concurrentstatistic 类 。 首 先 ， 实 现 
measure () 方 法 ， 以 测量 一 个 任务 的 执行 时 间 。 


public class ConcurrentMain { 


static Map<String, List<Double>> totalTimes = new LinkedHashMap<>(); 
static List<Record> records; 


private static void measure(String name, Runnable r) { 
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long start = System.nanoTime(); 
Er 
long end = System.nanoTime(); 
totalTimes.computeIfAbsent (name, k -> new ArrayList<>()) 
.add((end - start) / 1 000_000.0); 
} 


使 用 一 个 Map 存放 每 个 方法 的 执行 时 间 。 每 个 方法 将 执行 10 次 ， 以 观察 在 第 一 次 执行 之 后 执行 
时 间 如 何 缩减 。 然 后 ， 给 出 main () 方 法 的 代码 。 它 使 用 measure () 方 法 度量 每 个 方法 的 执行 时 间 并 
且 将 该 过 程 重复 10 次 。 


public static void main(String[] args) throws IOException { 
Path path = Paths.get ("data\\Online Retail.csv"); 


二 

measure("Customers from UnitedKingdom", () -> ConcurrentStatistics 
.CustomersFromUnitedKingdom(records)); 

measure("Quantity from UnitedKingdom", () -> ConcurrentStatistics 
.quantityFromUnitedKingdom(records)); 

measure("Countries for Product", () -> ConcurrentStatistics 
.CountriesForProduct (records)); 

measure("Quantity for Product", () -> ConcurrentStatistics 
.quantityForProductOk (records)); 

measure("Multiple Filter for Products", () -> ConcurrentStatistics 
.multipleFilterData (records)); 

measure("Multiple Filter for Products with Predicate", () -> 
ConcurrentStatistics.multipleFilterDataPredicate (records)); 

measure("Biggest Invoice Ammount", () -> ConcurrentStatistics 
.getBiggestInvoiceAmmounts (records)); 

measure("Products Between 1 andq 10", () -> ConcurrentStatistics 


.productsBetweenland10 (records)); 


} 
最 后 ， 将 所 有 执行 时 间 和 平均 执行 时 间 输 出 到 控制 全 ， 如 下 所 示 : 


times.stream 


.map(t -> String.format ("%$6.2f", t)) 


() 
.collect (Collectors.joining(" ")), 
times.stream() .mapToDouble (Double: :doubleValue) 
.average() .getAsDouble())); 


8.2.2” 串 行 版 本 


在 本 例 中 ， 串 行 版 和 并 发 版 几乎 相同 ， 只 是 将 对 parallelstream() 方 法 的 调用 替换 成 了 对 
stream() 方 法 的 调用 ,以 便 获 得 顺序 流 而 非 并 行 流 。 我 们 还 要 删除 在 一 个 样 例 中 用 到 的 对 parallel () 
方法 的 调用 ， 并 且 将 调用 groupingByConcurrent () 方 法 更 改 为 调用 groupingBy () 方 法 。 
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8.2.3 对比 两 个 版 本 


执行 两 个 版 本 的 操作 ， 以 测试 并 行 流 是 否 可 以 提供 更 好 的 伯 


使 用 JMH 框架 执行 该 操作 ， 该 框架 允许 你 在 Ja 
架 是 比较 好 的 解决 方案 ， 它 直接 用 currentTimeMi 
不 同 的 架构 上 分 别 执行 这 些 示例 10 次。 
口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 


va 中 实现 微型 


[人 已 
上 月 E 。 


基 疹 


测试 。 使 用 面向 基准 测试 的 杠 


1 


、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 
器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 


Lis() 或 者 nanoTime () 方 法 度量 时 间 。 在 两 种 


有 四 个 核 。 
以 下 便 是 运行 结果 ， 以 毫秒 为 单位 。 
Intel 架构 AMD 架构 

顺序 流 并 行 流 顺序 流 并 行 流 
订购 产品 的 国家 19.146 15.517 80.994 45.833 
来 自 英 国 的 客户 242.593 240.003 783.044 750.199 
最 大 发 货 量 81.612 70.853 358.488 174.395 
多 筛选 带 数 据 24.371 20.026 101.658 60.098 
带 有 谓词 的 多 筛选 器 数据 11.338 9.462 56.81 34.715 
单价 介 于 0 到 10 之 间 的 产品 45.065 27.394 187.91 85.299 
产品 总 量 24.614 22.675 126.088 65.897 
英国 订购 的 总 量 24.488 14.722 132.161 55.278 


我 们 可 以 看 到 并 行 流 总 是 比 串 行 流 具有 更 好 的 全 


E 能 。 下 面 给 出 的 是 所 有 示例 的 加 速 比 。 


操作 Intel 加 速 比 AMD 加 速 比 
订购 产品 的 国家 1.23 .77 
来 自 英 国 的 客户 1.01 .04 
最 大 发 货 量 1.15 2.06 
多 筛选 器 数据 1.21 .69 
带 有 谓词 的 多 筛选 器 数据 1.19 .64 
单价 介 于 1 到 10 之 间 的 产品 1.64 2.20 
产品 总 量 1.08 .91 
英国 订购 的 总 量 1.66 2.39 


8.3 第 二 个 例子 : 信息 检索 工具 


根据 维基 百科 ， 信 息 检 索 的 定义 如 下 。 
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“从 信息 资源 集合 中 获取 与 菜 一 信息 需求 相关 的 信息 资源 。” 


通常 ,信息 资源 是 一 个 文档 集合 ， 而 信息 需求 则 是 一 个 概述 了 需求 的 单词 集合 。 为 了 快速 搜索 文 
档 集 合 ， 我 们 采用 一 种 名 为 倒 排 索引 的 数据 结构 。 该 结构 存放 了 文档 集合 中 的 所 有 单词 ， 而 且 对 于 每 
个 单词 ， 都 有 一 个 包含 该 单词 文档 的 列表 。 在 第 5 章 中 我 们 已 经 构建 了 一 个 文档 集合 的 倒 排 索引 ， 该 
文档 集合 包含 有 100 673 个 有 关 电 影 信息 的 维基 百科 页 面 。 我 们 已 将 每 个 维基 百科 页 面 转换 成 一 个 文 
本 文件 。 该 倒 排 索引 存放 在 一 个 文本 文件 中 ,， 且 该 文件 的 每 一 行 都 包含 单词 、 单 词 在 文档 中 出 现 的 频 
率 、 所 有 出 现 了 该 单词 的 文档 以 及 在 该 文档 中 的 tfxiaf 属性 。 这 些 文档 都 按照 tfxiaf 属性 的 值 进 
行 排序 。 例 如 ， 该 文件 中 的 一 行 如 下 所 示 : 


velankanni:4,18005302.txt:10.13,20681361.txt:10.13,45672176.txt:10 
13706992085%tXt :03 


这 一 行 包 含 了 单词 velankanni, 它 的 DF 值 为 4. 它 在 文档 18005302.txt 中 出 现 且 tfxiaf 值 为 10.13， 
在 20681361.txt 文档 中 出 现 晶 tfxidf 值 为 10.13， 在 45672176.txt 文 档 中 出 现 日 tfxidf 值 为 10.13 ， 
在 6592085.txt 文档 中 出 现 日 tfxigf 值 也 为 10.13。 
本 章 将 使 用 流 API 来 实现 不 同 版 本 的 搜索 工具 ， 并 且 获 取 有 关 倒 排 索引 的 信息 。 


8.3.1 约 简 操作 简介 


正如 本 章 前 面 提 到 的 , 约 简 操作 将 汇总 操作 应 用 于 流 的 元 素 以 生成 一 个 单独 的 汇总 结果 。 该 结果 
可 以 与 流 的 元 素 类 型 相同 ， 也 可 以 不 同 。 计 算 一 个 数值 流 的 和 就 是 reduce () 操作 的 一 个 简单 示例 。 
流 API 提供 了 reduce() 方 法 来 实现 约 简 操作 。 该 方法 有 下 述 三 个 版 本 。 
口 reduce (accumulator):; 该 版 本 将 accumulator 函数 应 用 于 流 的 所 有 元 素 。 在 这 种 情况 下 
没有 初始 值 。 它 返回 一 个 含有 accumulator 男 数 最 终结 果 的 optional 对 象 ， 或 者 当 该 流 为 
室 时 返回 一 个 空 的 optional 对 象 。accumulator 国 数 必须 是 一 个 associative 国 数 ， 它 
实现 了 Binaryoperator 接口 。 两 个 参数 既 可 以 是 流 元 素 ， 也 可 以 是 之 前 调用 accumulator 
函数 所 返回 的 部 分 结果 。 
口 reduce (identity,accumulator) : 当 最 终结 果 和 流 的 元 素 类 型 相同 时 ， 必 须 采 用 该 版 
本 。 标 识 值 必须 为 accumulator 函数 的 标识 值 。 也 就 是 说 ， 如 果 将 accumulator 函数 应 用 
于 标识 值 和 任意 值 Vv， 必 须 返 回 同 样 的 值 V: accumulator (iaqentity,V)=V。 该 标识 值 用 
作 accumulator 函数 的 第 一 个 结果 ， 如 果 流 没有 元 素 ， 则 该 值 作为 返回 值 。 正 如 在 另 一 版 
本 中 一 样 ，accumulator 必须 是 一 个 实现 BinaryOperator 接口 的 associative 困 数 。 
口 reduce (identity，accumulator，combiner) : 当 最 终结 果 与 流 的 元 素 为 不 同类 型 时 ， 必 须 
使 用 该 版 本 。 标 识 值 必须 是 combiner 函数 的 标识 。 也 就 是 说 ，combiner (idqentity,v)=v 
这 里 的 combiner 国 数 必须 与 accumulator 因数 兼容 ， 即 combiner (u,accumulator 
identity,v))=accumulator (u,v)。accumulator 困 数 采用 局 部 结果 和 流 的 下 一 个 元 素 
生成 另 一 个 局 部 结果 。combiner 函数 采用 两 个 局 部 结果 来 生成 男 一 个 局 部 结果 。 这 两 个 也 
数 必须 均 是 associative 函数 ,但 是 在 这 种 情况 下 ，accumulator 函数 是 BiFunction 接 
口 的 实现 ， 而 combiner 困 数 是 BinaryOperator 接口 的 实现 。 
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reduce () 方 法 有 一 个 局 限 。 如 前 所 述 ,该 函数 必须 返回 单个 值 。 你 不 应 该 使 用 reduce ( ) 方法 来 
生成 一 个 collection 对 象 或 者 一 个 复杂 对 象 。 首 要 问题 在 于 性 能 。 正 如 流 API 的 文档 中 所 说 明 的 ， 


accumulator 玉 数 每 处 浊 


一 个 元 素 都 会 返回 一 个 新 值 。 如 果 你 的 accumulator 函数 处 至 


的 是 


人 
口 ， 


那么 每 当 它 处 理 一 个 元 素 时 都 会 创建 一 个 新 的 集合 ， 这 样 效率 就 很 低 。 另 一 个 问题 是 ， 如 果 采 用 并 行 


流 ， 那么 所 有 的 线程 都 要 共享 标识 值 。 
如 果 该 值 是 一 个 可 变 对 象 , 例如 一 个 collection, 那么 所 有 


的 线程 都 将 作用 于 相同 的 collection 


之 上 。 这 样 就 有 悖 于 reduce () 操 作 的 初 囊 了。 此外, combiner () 方 法 总 是 接收 两 个 相同 的 collection 


(所 有 的 线程 仅 作用 于 一 个 collection 之 上 ) 作为 参数 ， 这 也 有 悖 于 reduce () 


如 果 要 实现 一 个 可 生成 collection 或 复杂 对 象 的 约 简 操作 ， 有 如 下 两 个 供 选 方案 。 


操作 的 初衷。 


口 使 用 collect () 方 法 应 用 可 变 约 简 操作 。 第 9 章 将 详细 介绍 如 何在 不 同 的 场景 下 使 用 该 方法 。 
口 创建 集合 并 且 使 用 forEach() 方 法 ， 以 便 使 用 所 需 值 填充 collection。 


本 例 将 使 用 reduce () 方 法 来 获取 有 关 倒 排 索引 的 信息 , 使 用 forEach () 方 法 将 该 索引 约 简 成 与 
某 一 查询 相关 的 文档 列表 。 


8.3.2 ”第 一 种 方式 : 全 文档 查询 


在 第 一 种 方式 中 ,将 


用 到 与 某 一 单词 相关 的 所 有 文档 。 该 搜索 过 程 的 实现 步骤 如 下 。 


口 在 倒 排 索引 中 选取 与 查询 
口 将 所 有 的 文档 列表 组 合成 单个 列表 。 如 果 一 个 文档 与 两 个 或 者 多 个 单词 相关 ， 那 么 将 在 该 文 


! 单 词 相对 应 的 行 。 


档 中 出 现 的 这 些 单词 的 tfxiaf 值 相 加 ， 得 到 该 文档 最 终 的 tfxiaf 值 。 如 果 一 个 文档 仅 与 一 
个 单词 相关 ， 那 么 该 单词 的 tfxiqf 值 就 是 该 文档 的 最 终 tfxiaf 值 。 


口 使 用 文档 的 tfxiaf 值 自 高 到 低 进行 排序 。 
口 将 tfxiaf 值 排名 前 100 的 文档 展现 给 用 户 。 


这 一 版 本 已 经 在 ConcurrentSearch 类 的 basicsearch() 方 法 中 实现 ,该 方法 的 源 代码 如 下 所 示 : 


public static void basicSearch(String query[]) throws IOException { 


Path path = Paths.get ("index", "invertedIindex.txt"); 


HashSet<String> 


Set 


QueryResult results = 


try (Stream<String> 


new HashSet<>(Arrays.asList (gquery)); 
new QueryResult (new ConcurrentHashMap<>()); 


invertedIindex = Files.lines(path)) { 


invertedIndex.parallel().filter(line -> set 
.contains (Utils.getWord (line))) 
.flatMap (ConcurrentSearch: :basicMapper) 
.forEach(results::append);} 


results.getAsList().stream() .sorted().1limit(100) 
.forEach(System.out::println); 


System.out .println("Basic Search Ok"); 


} 
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我 们 接收 一 个 含有 查询 单词 的 字符 串 对 象 数组 。 首 先 ， 将 该 数组 转换 成 一 个 集合 。 然 后 ， 使 用 
个 try-with-resources 流 处 理 invertedIndex.txt 文件 的 各 行 , 正 是 该 文件 存放 了 倒 排 索引 。 由 于 采 
用 了 try-with-resources 流 ， 因 此 不 需要 担心 文件 的 打开 和 关闭 。 对 该 流 的 聚合 操作 将 会 生成 一 
个 含有 相关 文档 的 oueryResult 对 象 。 可 以 使 用 下 述 方法 获取 该 列表 。 
口 barallel(): 首先 ， 获 取 一 个 并 行 流 以 提高 搜索 过 程 的 性 能 。 
口 filter(): 选取 将 集合 中 单词 与 查询 中 单词 相关 联 的 行 。Utils .getword() 方 法 将 获取 该 
行 的 单词 。 
口 flatMap () : 将 字符 串 流 ( 其 中 每 个 字符 串 都 是 倒 排 索引 中 的 一 行 ) 转换 成 一 个 Token 对 象 
流 。 每 个 Token 对 象 包含 了 文件 中 一 个 单词 的 tfxidf 值 。 对 于 每 一 行 ， 生 成 的 Token 对 象 
数 与 包含 该 单词 的 文件 数 相 同 。 
口 forEach () : 使 用 该 类 的 agd() 方 法 添加 每 个 Token 对 象 ， 进 而 生成 oueryResult 对 象 。 
一 旦 创建 了 oueryResult 对 象 ， 则 要 使 用 以 下 方法 创建 另 一 个 流 ， 以 便 获 得 最 终结 果 列 表 。 
口 getAsList () : QueryResult 对 象 返 回 一 个 含有 相关 文档 的 列表 。 
口 stream(): 用 于 创建 一 个 处 理 该 列表 的 流 。 
口 sorted() : 用 于 按照 文档 的 tfxiaf 值 排列 文档 列表 。 
口 1imit () : 用 于 获得 前 100 个 结果 。 
口 forEach () : 用 于 处 理 100 个 结果 并 且 将 信息 输出 到 屏幕 。 
下 面 详 细 介绍 一 下 在 本 例 中 用 到 的 辅助 类 和 方法 。 
1.basicMapper() 方 法 
该 方法 将 一 个 字符 串 流转 换 成 一 个 Token 对 象 流 。 稍 后 将 详细 介绍 ，Token 中 存放 文档 中 一 个 单 
词 的 tfxiaf 值 。 该 方法 接收 一 个 字符 串 ( 倒 排 索引 中 的 一 行 )。 它 将 一 行 分 割 成 若干 个 Token ,并 且 生 
成 与 单词 所 在 文档 数 相同 的 Token 对 象 。 该 方法 在 concurrentSearch 类 中 实现 ， 其 源 代码 如 下 : 


public static Stream<Token> basicMapper (String input) { 
ConcurrentLinkedDeque<Token> list = new ConcurrentLinkedDeque (); 
String word = Utils.getWord(input); 
Arrays.stream(input.split(",")).skip(1) .parallel () 
.forEach(token -> list.add(new Token (word, token))); 


return list.stream(); 

} 
首先 , 创建 一 个 concurrentLinkedDeque 对 象 来 存储 Token 对 象 。 然 后 ,使 用 split () 方 法 
分 割 字符 串 , 并 且 使 用 Arrays 类 的 stream() 方 法 生成 流 。 跳 过 第 一 个 元 素 ( 其 中 包含 单词 的 信息 ) 


[oy 


并 且 以 并 行 方式 处 理 剩 下 的 Token。 对 于 每 个 元 素 ， 均 创建 一 个 新 的 Token 对 象 (将 该 单词 和 具有 
file:tfxidf 格式 的 Token 传递 给 构造 函数 ), 并 且 将 其 添加 到 该 流 。 最 后 ,使 用 concurrenLinkeq- 
Deque 对 象 的 stream() 方 法 返回 一 个 流 。 

2. Token 类 

如 前 所 述 , 该 类 存储 了 文档 中 某 一 单词 的 tfxiaf 值 。 这样， 该 类 就 有 三 个 属性 用 于 存放 这 些 信 
息 ， 如 下 所 示 : 
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AS - 主 - 
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public class Token { 


private final String word; 
private final double tfxidf; 
private final String file; 


构造 函数 接收 两 个 字符 串 。 第 一 个 参数 中 含有 该 单词 , 而 第 二 个 参数 含有 文件 和 以 file:tfxidf 
格式 出 现 的 tfxiaf 属性 ， 所 以 要 按照 如 下 代码 进行 处 理 。 


public Token(String word, String token) { 


this.word=word; 
String[] parts=token.split(":"); 


this.file=parts[0]; 
this.tfxidf=Double.parseDouble (parts[1]); 


串 的 方法 ， 


} 
性 值 的 方法 ， 以 及 一 个 将 对 象 转换 成 字符 


最 后 ， 增 加 了 获取 ( 而 不 是 设置 ) 这 三 个 
如 下 所 示 : 
@Override 

{ 


public String toString() 
return word+":"+file+":"+tfxidf; 


目 


} 


3. oueryResult 类 
该 类 存放 了 与 某 个 查询 相关 的 文档 列表 。 从 内 部 来 看 ， 该 类 使 用 一 个 Map 来 存放 相关 文档 信息 。 
值 为 一 个 Document 对 象 ， 其 中 包含 了 文件 名 和 该 文档 相对 于 该 查询 的 


其 键 为 文档 的 文件 名 ， 其 
tfxiaf 值 总 和 ， 如 下 所 示 : 


public class QueryResult { 


private Map<String, Document> results; 
使 用 该 类 的 构造 函数 具体 实现 将 用 到 的 Map 接口 。 在 并 发 版 本 中 使 用 concurrentHashMmap, 在 
串 行 版 本 中 使 用 HashMap。 
t> results) { 


public QueryResult (Map<String, Documen 
this.results=results; 


该 类 包含 了 append 方法 ， 它 将 一 个 Token 扣 

public voidq appendq(Token token) { 
results.computeIfAbsent (token.getFile!() 

Document (s)) .adgqTfxidf (token.getTfxidf()); 


入 Map， 如 下 所 示 : 


~ SW 


puteIfAbsent () 方 法 创建 一 个 新 的 
且 使 


} 
如 果 没 有 与 文件 相关 的 Document 对象， 那么 使 用 com 
Document 对 象 ， 如 果 Document 对 象 早 已 存在 ， 该 方法 会 获 ] 


adqdTfxiaqf () 方 法 将 Token 的 tfxigdf 值 加 到 文档 的 总 tfxiqf 值 。 
最 后 ， 还 引入 了 一 个 方法 以 获取 Map ， 作 为 一 个 列表 ， 如 下 所 示 : 


取 相 应 的 Document 对 象 ， 并 


public List<Document> getAsList() { 
return new ArrayList<>(results.values()); 


} 


Document 类 将 文件 名 以 字符 串 形式 保存 ， 将 总 tfxiaf 值 以 DoubleaAdqder 形式 保存 。 该 类 是 
Java 8 的 一 个 新 特性 ， 可 以 从 不 同 线程 汇总 计算 变量 的 值 ， 而 无 须 担 心 同步 问题 。 它 实现 了 comparable 
接口 来 按照 文档 的 tfxiaf 值 对 其 进行 排序 ， 这 样 tfxiaf 值 最 高 的 文档 就 会 排 到 第 一 位 。 其 源 代码 
非常 简单 ， 此 处 不 再 给 出 。 


8.3.3 ”第 二 种 方式 : 约 简 的 文档 查询 


第 一 种 方法 是 为 每 个 单词 和 文件 创建 一 个 新 的 Token 对 象 。 注意 ， 有 一 些 常 见 词 (例如 the ) 会 
关联 大 量 的 文档 ,但 是 其 中 的 大 多 数 tfxiaf 值 都 很 低 。 我 们 修改 了 自己 的 映射 器 方法 ， 对 于 每 个 单 
词 仅 考 虑 与 之 相关 的 100 个 文件 ， 这 样 生成 的 roken 对 象 数量 就 比较 小 了 。 

我 们 在 ConcurrentSearch 类 的 requcedsearch () 方 法 中 实现 了 该 版 本 。 该 方法 与 basicsearch() 
方法 非常 类 似 ， 它 仅仅 改变 了 生成 oueryResult 对 象 的 流 操作 ， 如 下 所 示 : 


invertedIindex.parallel().filter(line -> set 
.Contains (Utils.getWord (line))) 
.flatMap (ConcurrentSearch: :limitedMapper) 
.forEach(results::append); 


现在 ,使 用 1imitedMapper () 方 法 作为 flatMap () 方 法 中 的 函数 。 

limitedMapper() 方 法 

该 方法 与 pasicMapper () 方 法 类 似 ， 但 是 如 前 所 述 ， 仅 考虑 与 每 个 单词 相关 的 前 100 个 文档 。 
因为 文档 均 按 照 其 上 ifxiaf 值 进行 排序 ， 所 以 采用 该 词 重要 程度 较 高 的 前 100 个 文档 ， 如 下 所 示 : 

public static Stream<Token> limitedMapper (String Input) { 


ConcurrentLinkedDeque<Token> list = new ConcurrentLinkedDeque(); 
String word = Utils.getWord(input); 


Arrays.stream(input.split(",")).skip(1) .limit (100) .parallel () .forEach (token 
= 
list.add(new Token (word, token)); 
ee 


return list.stream(); 


} 
它 和 basicMapper () 方 法 唯一 的 区 别 在 于 对 1imit (100) 的 调用 , 这 将 选取 流 的 前 100 个 元 素 。 


8.3.4 第 三 种 方式 : 生成 一 个 含有 结果 的 HTML 文件 


使 用 Web 搜索 引擎 (例如 Google ) 作为 搜索 工具 进行 搜索 时 ， 它 会 返回 搜索 的 结果 ( 最 重要 的 
10 个 结果 )， 而 且 每 个 结果 都 显示 了 文档 的 标题 和 出 现 所 搜索 单词 的 文档 片段 。 
搜索 工具 的 第 三 种 方法 基于 第 二 种 方法 , 只 是 增加 了 第 三 个 流 来 生成 一 个 含有 搜索 结果 的 HTML 
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文件 。 对 于 每 个 结果 ， 我 们 将 显示 文档 的 标题 以 及 含有 查询 中 单词 的 三 行 片段 。 要 实现 这 一 目标 ， 需 
要 访问 在 倒 排 索引 中 出 现 的 文件 。 这 些 文件 已 经 存储 在 一 个 名 为 docs 的 文件 夹 中 。 

第 三 种 方法 在 concurrentSearch 类 的 htmlSsearch () 方 法 中 实现 。 该 方法 的 第 一 部 分 与 
requcedSearch () 方 法 相同 ， 它 构造 了 含有 100 个 结果 的 QueryResult 对 象 。 


public static void htmlSearch(String gquery[], String fileName) 


IOException { 
Path path = Paths.get ("index", "invertedIindex.txt"); 
HashSet<String> set = new HashSet<>(Arrays.asList (gquery)); 


QueryResult results = new QueryResult (new ConcurrentHashMap<>()); 


try (Stream<String> invertedIndex = Files.lines(path)) { 


invertedIndex.parallel().filter(line -> set 
.contains (Utils.getWord (line))) 
.flatMap (ConcurrentSearch: :1]imitedMapper) 
.forEach (results::append); 


然后 ， 创 建文 件 并 写 人 输出 结果 和 HTML 头 。 


path = Paths.get ("output", fileName + "_results.html"); 


try (BufferedWriter fileWwriter = Files.newBufferedWriter (path, 


StandardOpenOption.CREATE)) { 


fileWwriter.write ("<HTML>"); 

filewriter.write ("<HEAD>"); 
filewriter.write("<TITLE>"); 
filewriter.write("Search Results with Streams"); 
filewriter.write("</TITLE>"); 
filewriter.write("</HEAD>"); 


fileWwriter.write("<BODY>"); 
fileWriter.newLine(); 


然后 ， 引 入 在 HTML 文件 中 生成 结果 的 流 。 


results.getAsList().stream() .sorted() .limit(100) .map (new 
ContentMapper (query)) .forEach(1 -> { 
try { 


fileWwriter.write(1); 
fileWriter.newLine(); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
Fs 


fileWwriter.write("</BODY>"); 
fileWwriter.write("</HTML>"); 


} 
我 们 用 到 了 以 下 方法 。 
口 getAsList () : 用 于 获取 与 查询 相关 的 文档 列表 。 


则 不 会 按照 文档 的 tfxiaf 值 排序 。 


口 stream(): 用 于 生成 一 个 顺序 流 。 无 法 并 行 化 该 流 。 如 果 试 图 这 档 


做 ， 了 最终 


throws 


终 文件 中 的 结果 
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口 sorted(): 用 于 按照 tfxigf 属性 对 结果 排序 。 
口 map () : 使 用 contentMapper 类 将 每 个 结果 对 应 的 Result 对 象 转换 成 为 一 个 含有 HTML 
代码 的 字符 串 ， 本 章 稍 后 将 详细 介绍 该 类 。 

口 forEach () : 将 map () 方 法 返回 的 String 对 象 输 出 到 文件 。Stream 对象 的 方法 不 能 抛 出 校 
验 异 常 ， 因 此 要 使 用 一 个 try. . .catch 代码 块 抛 出 异常 。 

下 面 详 细 介 绍 一 下 ContentMapper 类 。 


[DJ] 


ContentMapper 类 
ContentMapper 类 是 Function 接口 的 一 个 实现 ， 它 将 一 个 Result 对 象 转换 成 一 个 HTML 代 
码 块 ， 其 中 含有 文档 标题 以 及 含有 查询 中 一 个 或 多 个 单词 的 三 行文 档 片段 。 


该 类 使 用 一 个 内 部 属性 来 存放 查询 ， 而 且 实 现 了 一 个 构造 函数 来 初始 化 该 属性 ， 如 下 所 示 : 


public class ContentMapper implements Function<Document, String> { 


private String query[]; 


public ContentMapper (String query[]) { 
this.query = query; 
} 


该 文档 的 标题 存放 在 文件 的 第 一 行 中 。 使 用 try-with-resources 指令 和 File 类 的 lines () 
方法 ， 创 建 含有 该 文件 各 行内 容 的 String 对 象 流 ， 并 且 使 用 fingFirst () 方 法 以 字符 囊 形 式 获取 
第 一 行 。 

public String apply (Document d) { 


StELng Tesult ra Mm 
try (Stream<String> content = Files.lines (Paths.get ("docs",d 
.getDocumentName()))) { 


result = "<h2>" + d.getDocumentName() + ": "+ 
content.findFirst().get() + ": "+ 
d.getTfxidf() + "</h2>"; 
} catch (IOException e) { 
e.printStackTrace(); 
throw new UncheckedIOException(e); 


} 

然后 ,采用 一 种 类 似 结构 ， 不 过 在 本 例 中 ， 我 们 使 用 filter () 方 法 获取 那些 仅 包 含 查询 中 

或 多 个 单词 的 行 , 使 用 1imit () 方 法 选取 其 中 的 三 行 。 然后 , 使 用 map () 方 法 为 每 个 段落 添加 HTML 
标记 (<p> )， 并 使 用 reduce () 方 法 完成 含有 选 定 行 的 HTML 代码 。 


try (Stream<String> content = Files.lines(Paths.get ("docs", 


< 


d.getDocumentName()))) { 
result += Content .filter(1 -> Arrays.stream(query) 
.anyMatch (1.toLowerCase()::contains)) 
.1imit(3) .map(1 -> "<p>"+l1+"</p>") 
.reduce("",String::concat); 


return result; 
} catch (IOException e) { 
e.printSstackTrace(); 
throw new UncheckedIOException(e); 
y 
} 
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8.3.5 ”第 四 种 方式 : 预先 载 入 倒 排 索引 


并 行 执行 时 ,前 三 种 解决 方案 会 存在 问题 .如 前 所 述 ,并 行 流 是 由 Java 并 发 API 中 的 公共 Fork/Join 
池 执 行 的 。 在 第 7 章 中 ,我 们 了 解 了 不 应 该 在 任务 中 使 用 IO 操作 来 读 取 或 写 信 数据 。 这 是 因为 当 一 
个 线程 阻塞 了 从 (向 ) 文件 读 取 (〈 写 入 ) 数据 时 ， 该 框架 就 不 再 使 用 工作 窃取 算法 。 因 此 将 一 个 文件 
作为 流 的 来 源 时 ， 实 际 上 是 将 自己 的 并 发 方案 置 于 不 利 境地 。 

这 一 问题 的 解决 方案 之 一 就 是 将 数据 读 取 到 某 种 数据 结构 中 , 然后 从 该 数据 结构 中 创建 流 。 显 然 ， 
与 其 他 方式 相 比 ， 这 种 方式 的 执行 时 间 要 少 一 些 , 但 是 仍 要 比较 串 行 版 本 和 并 发 版 本 ， 看 看 并 发 版 本 
是 否 如 预期 那样 能 够 带 来 更 好 的 性 能 。 这 种 方式 的 缺陷 在 于 需要 将 数据 结构 存放 在 内 存 中 ， 而 这 需要 
消耗 大 量 的 内 存 。 

第 四 种 方式 在 ConcurrentSearch 类 的 preloadSearch() 方 法 中 实现 。 该 方法 接收 以 一 个 字 
符 串 数组 形式 存放 的 查询 和 一 个 带 有 倒 排 索引 数据 的 ConcurrentInvertedIndex 类 ( 稍 后 将 了 解 
该 类 的 详细 内 容 ) 的 对 象 作为 参数 。 这 一 版 本 的 源 代码 如 下 : 


public static void preloadSearch (String[] query, 
ConcurrentInvertedIindex invertedIindex) { 


HashSet<String> set = new HashSet<>(Arrays.asList (gquery)); 
QueryResult results = new QueryResult (new ConcurrentHashMap<>()); 


invertedIndex.getIndex() .parallelStream() 
.filter(token -> set.contains (token.getWord())) 
.forEach (results::append); 


results.getAsList().stream() .sorted().1limit(100) 
.forEach(document -> System.out.println(document)); 


System.out .println("Preload Search Ok."); 
} 


ConcurrentInvertedIndex 类 采用 List<Token> 来 存放 从 文件 中 读 取 的 Token 对 象 。 该 类 有 
两 个 方法 来 操作 该 元 素 列表 ， 即 get () 和 set () 方 法 。 
与 在 其 他 方式 中 一 样 ， 我 们 使 用 两 个 流 : 第 一 个 用 于 获取 Result 对 象 的 ConcurrentLinked- 
Deque， 其 中 含有 整个 结果 列表 ; 第 二 个 用 于 在 控制 台 输 出 结果 。 与 其 他 版 本 相 比 ， 第 二 个 流 并 没有 
改变 , 但 是 第 一 个 流 发 生 了 变化 。 在 该 流 中 使 用 了 下 述 方法 。 
口 getIndex(): 首先 ， 获 取 Token 对 象 列表 。 
口 barallelstream(): 其 次 , 创建 一 个 并 行 流 来 处 理 该 列表 的 全 部 元 素 。 
口 filter () : 选择 与 查询 中 单词 相关 的 Token。 
口 forEach() : 对 Token 列表 进行 处 理 ， 使 用 appena () 方 法 将 它们 添加 到 QueryResult 对 象 中 。 
ConcurrentFileLoader 类 
ConcurrentFileLoader 类 将 含有 倒 排 索 引信 息 的 invertedIndex.txt 文件 内 容 加 载 到 内 存 。 它 
提供 了 一 个 名 为 10ad() 的 静态 方法 ， 该 方法 接收 存放 倒 排 索引 的 文件 路 径 作 为 参数 ， 返 回 一 个 
ConcurrentInvertedIndex 对 象 。 代 码 如 下 : 
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public class ConcurrentFileLoader { 


public ConcurrentInvertedIndex loadl(Path path) throws IOException { 
ConcurrentIinvertedIindex invertedIindex = new ConcurrentIinvertedIindex(); 
ConcurrentLinkedDeque<Token> results=new ConcurrentLinkedDeque<>(); 


使 用 try-with-resources 结构 打开 文件 并 且 创 建 一 个 流 来 处 理 所 有 行 。 


try (Stream<String> fileStream = Files.lines(path)) { 
filesStream.parallel() .flatMap (ConcurrentSearch::1imitedMapper) 
.forEach(results::add); 


} 


invertedIindex.setIndex(new ArrayList<>(results)); 
return invertedIndex; 
} 
} 


在 该 流 中 使 用 了 下 述 方法 。 
口 parallel (): 将 该 流转 换 成 一 个 并 行 流 。 
口 flatMap(): 使 用 concurrentSearch 类 的 1imitedMapper () 方 法 将 行 转换 成 一 个 Token 
对 象 流 。 
口 forEach () : 处 理 Token 对 象 列 表 ， 使 用 adqaq () 方 法 将 它们 添加 到 concurrentLinkedDeque 
对 象 中 。 
最 后 , 将 ConcurrentLinkedDeque 对 象 转换 成 ArrayList， 并 且 在 InvertedIndex 对 象 中 
使 用 setIndex () 方 法 对 其 进行 设置 。 


8.3.6 ”第 五 种 方式 : 使 用 我 们 的 执行 器 


为 了 更 加 深入 地 理解 本 例 ， 我 们 还 将 测试 另 一 个 并 发 版 本 。 正 如 本 章 开 头 提 到 的 ， 并 行 流 使 用 
Java8g 引入 的 公共 Fork/Join 池 。 然 而 ,我 们 可 以 借助 一 个 技巧 来 使 用 自己 的 池 。 如 果 将 自己 的 方法 作 
为 Fork/Join 池 的 一 个 任务 ， 那 么 该 流 的 所 有 操作 都 会 在 同一 Fork/Join 池 中 执行 。 为 测试 该 功能 ， 我 
们 在 concurrentsearcn 类 中 增加 了 executorSearch() 方 法 。 该 方法 接收 以 字符 串 对 象 数 组 表示 
的 查询 作为 参数 ， 接 收 InvertedIndex 对 象 和 一 个 ForkJoinPool 对 象 。 该 方法 的 源 代码 如 下 : 


public static void executorSearch (String[] query, 
ConcurrentInvertedIindex invertedIindex, ForkJoinPool pool) { 
HashSet<String> set = new HashSet<>(Arrays.asList (query)); 
QueryResult results = new QueryResult (new ConcurrentHashMap<>()); 


pool.submit(() -> { 
invertedIndex.getIndex() .parallelStream() 


.filter(token -> set.contains (token.getWord())) 
.forEach(results::append); 


results.getAsList().stream() .sorted().1limit(100) 
.forEach(document -> System.out.println(document)); 
}) .join(); 


System.out .println("Executor Search Ok."); 
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执行 该 方法 的 内 容 ， 其 中 含有 两 个 流 。 使 用 supmit () 方 法 将 该 方法 作为 Fork/Join 池 中 的 一 个 任 
务 ， 并 且 使 用 join () 方 法 等 待 其 执行 完毕 。 


8.3.7 ”从 倒 排 索引 获取 数据 : concurrentData 类 


我 们 还 实现 了 一 些 方法 来 获取 有 关 倒 排 索引 的 信息 ,这 用 到 了 concurrentData 类 中 的 reduce () 
方法 。 


8.3.8 获取 文件 中 的 单词 数 


第 一 个 方法 用 于 计算 文件 中 的 单词 数 。 正如 在 本 章 前 面 提 到 的 , 倒 排 索引 存储 了 出 现 单词 的 文件 。 
如 果 想 知道 文件 中 出 现 的 单词 ， 必 须 处 理 所 有 的 倒 排 索引 。 我 们 实现 了 该 方法 的 两 个 版 本 。 第 一 个 是 
在 getWordsInFilel() 方 法 中 实现 的 。 它 接收 文件 名 和 InvertedIndex 对 象 作 为 参数 , 如 下 所 示 : 


public static voidq getWordsInFilel (String fileName, ConcurrentInvertedIndex 
index) { 
long value = index.getIndex() .parallelStream() 
.filter(token -> fileName 
.equals (token.getFile())).count(); 
System.out .println("Words in File "+fileName+": "+value); 


} 


本 例 使 用 get Ingex() 方 法 获取 Token 对 象 列表 ， 并 是 使 用 parallelstream() 方 法 创建 一 个 
并 行 流 。 然 后 ， 使 用 filter () 方 法 筛选 与 该 文件 相关 的 Token。 最 后 ， 使 用 count () 方 法 计算 与 该 
文件 相关 的 单词 数 。 

我 们 还 实现 了 该 方法 的 男 一 个 版 本 , 使 用 requce ( ) 方 法 替代 count () 方 法 , 即 getWordsInFile2() 
方法 ， 如 下 所 示 : 


public static void getWordsInFile2(String fileName, ConcurrentInvertedIndex 
index) { 


亚 


GC 


开征 


long value = index.getIndex() .parallelStream() 
.filter(token -> fileName.equals (token.getFile())) 
.mapToLong (token -> 1).reduce(0, Long::sum); 
System.out .println("Words in File "+fileName+": "+value); 


} 


操作 的 起 始 顺 序 与 前 一 个 方法 相同 。 获取 含有 文件 中 单词 的 Token 对 象 流 时 , 我 们 使 用 mapToInt () 
方法 将 该 流转 换 成 一 个 数值 为 1 的 流 ， 然 后 使 用 reduce () 方 法 将 所 有 的 数值 1 相 加 。 


8.3.9 获取 文件 的 平均 tfxiaf 值 


我 们 实现 了 getAverageTfxidf () 方 法 , 该 方法 计算 了 文档 集合 中 某 个 文件 中 单词 的 平均 tfxiaf 
值 。 在 此 使 用 reduce () 方 法 来 展示 它 是 如 何 运行 的 。 也 可 以 使 用 其 他 方法 获得 更 好 的 性 能 。 


public static voidq getAverageTfxidf (String fileName, 
ConcurrentInvertedIndex index) { 


8.3 ”第 二 个 例子 : 信息 检索 工具 197 


long wordCounter = index.getIndex() .parallelStream!() 
.filter(token -> fileName.equals (token.getFile())) 
.mapToLong (token -> 1).reduce(0, Long::sum); 


double tfxidf = index.getIndex() .parallelStream() 
.filter(token -> fileName.equals (token.getFile())) 
.reduce(0d, (n,t)-> n+t.getTfxidf(), (nl1,n2) -> nil+n2); 


System.out .println("Words in File "+fileName+": "+ 
(tfxidf/wordCounter)); 
} 


我 们 使 用 两 个 流 。 第 一 个 计算 文件 中 的 单词 数 ， 而 且 它 和 getwordsInFile2 () 方 法 的 源 代码 相 
同 。 第 二 个 计算 文件 中 所 有 单词 的 tfxiaf 总 值 。 我 们 使 用 同样 的 方法 获取 含有 文件 中 单词 的 Token 
对 象 流 ， 然 后 使 用 reduce 方法 将 所 有 单词 的 tfxiaf 值 相 加 。 我 们 向 reduce () 方 法 传递 下 述 三 个 
参数 。 


0: 该 参数 作为 标识 值 传人 。 

口 (n,t) -> n+t.getTfxidf () : 该 参数 作为 accumulator 困 数 传人 。 它 接收 一 个 aouble 
数值 和 一 个 Token 对 象 ， 并 且 计 算 该 数值 和 Token 的 tfxidf 属性 值 的 和 。 

口 (n1,n2) -> nl1+n2: 该 参数 作为 combinet 国 数 传 人 。 它 接收 两 个 数值 并 且 计 算 它 们 的 和 。 


8.3.10 获取 索引 中 的 最 大 tfxiaf 值 和 最 小 tfxidqf 值 


我 们 还 在 maxTfxidf () 方 法 和 minTfxidf() 方 法 中 使 用 reduce() 方 法 来 计算 最 大 tfxidf 值 
和 最 小 tfxiaf 值 。 


public static voidq maxTfxidf (ConcurrentIinvertedIndex index) { 
Token token = index.getIndex() .parallelStream() 


.reduce (new Token("", "xxx:0"), (ti1, t2) -> { 
if (tl1l.getTfxidf()>t2.getTfxidf()) { 
return t1]; 
} else { 


return t2; 
} 
ja 
System.out .println(token.toSstring()); 


} 


该 方法 接收 concurrentInvertedIngdex 作为 参数 。 我 们 使 用 get Index () 方 法 来 获取 Token 
对 象 列表 。 然后, 使 用 parallelstream() 方 法 在 该 列表 上 创建 一 个 并 行 流 ， 并且 使 用 reduce() 方 
法 获取 具有 最 高 tfxidf 值 的 Token 对 象 。 在 本 例 中 , 使 用 带 有 两 个 参数 的 reduce () 方 法 ,其 中 一 
个 参数 为 标识 值 ， 另 一 个 为 一 个 accumulator 函数 。 该 标识 值 是 一 个 Token 对 象 。 我 们 并 不 考虑 该 
单词 及 其 文件 名 称 ,但 是 将 其 tfxiaf 局 作风 值 彻 类 化 为 0 然后 ,accumulator 函数 接收 两 个 Token 
对 象 作为 参数 。 比 较 两 个 对 象 的 tfxiaf 值 属 性 ， 并 且 返 回 值 较 大 的 那个 对 象 。 

minTfxidf() 方 法 非常 类 似 ， 如 下 所 示 : 


下 
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public static void minTfxidf (ConcurrentIinvertedIndex index) { 
Token token = index.getIndex() .parallelStream() 


.reduce(new Token("", "xxx:1000000"), (tl1, t2) -> { 
if (tl getTrfxidf()<t2.0etRfxidf(t)) + 
return t1; 
} else { 
return t2; 


} 
:3 


System.out .println(token.toString()); 
} 


对 于 本 例 ， 其 主要 区 别 在 于 对 标识 值 的 初始 化 要 采用 非常 高 的 fxiqf 属 


设 
席 
本 


8.3.11 concurrentMain 类 


为 了 测试 在 以 上 各 节 中 讲述 的 方法 , 我 们 实现 了 concurrentMain 类 , 该 类 实现 了 main () 方 法 
以 启动 测试 。 在 这 些 测试 中 ,使 用 了 下 面 三 个 查询 。 
口 查询 1: 含有 james 和 bong 两 个 单词 。 
口 查询 2: 含有 gone、with、the 和 wind 等 单词 。 
口 查询 3: 含有 单词 rocky。 

我 们 用 三 个 版 本 的 搜索 过 程 测 试 上 述 三 个 查询 ,度量 每 次 测试 的 执行 时 间 。 所 有 的 测试 都 含有 类 
似 下 面 的 代码 : 


public class ConcurrentMain { 


public static void main(String[] args) { 


String queryl[]={"james", "bond"}; 
String query2[]={"gone", "with","the","wind"}; 
String query3[]={"rocky"}; 


Date start, end; 


bufferResults.append ("Version 1, 
start = new Date(); 


ConcurrentSearch.basicSearch (query1); 
end = new Date(); 


bufferResults.append ("Execution Time: " + (end.getTime() 
start.getTime()) + "\n"); 


query 1, concurrent\n");} 


为 从 某 个 文件 将 倒 排 索引 加 载 到 一 个 InvertegdIndex 对 象 ， 可 以 使 用 下 述 代 码 。 


ConcurrentInVertedqIndex invertedIndex = new 


ConcurrentInvertedIindex(); 
ConcurrentFileLoader loader = new ConcurrentFileLoader (); 
invertedIndex = loader.load(Paths.get ("index", 


"invertedIndex.txt")); 


为 了 创建 用 于 executorSearch () 方 法 的 执行 器 ， 可 以 使 用 下 面 的 代码 。 


ForkJoinPool] pool = new ForkJoinPool (); 
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8.3.12 ” 串 行 版 
我 们 通 过 SerialSearch、 SerialData、SerialInvertendIndex、SerialFileLoader 和 


SerialMain 类 实现 了 该 例 的 串 行 版 。 为 了 实现 该 版 本 ， 我 们 做 了 如 下 改动 。 
口 使 用 顺序 流 替 代 并 行 流 。 不 使 用 parallel () 方 法 来 将 流转 换 成 并 行 流 ， 或 者 将 创建 并 行 流 


的 parallelStream( 


口 在 SerialFileLoader 类 中 ， 


8.3.13 ”对 比 两 种 解决 方案 
比较 一 下 已 实现 所 有 方法 的 串 行 版 和 并 行 版 解决 方案 


) 方 法 替换 为 stream () 


使 用 JMH 框架 来 执行 它们 ， 该 框架 允许 你 在 Java 
是 比较 好 的 解决 方案 ， 


的 框架 


它 直 接 用 


currentTimeMil 


在 两 种 不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 


方法 ， 进 而 创建 一 个 顺序 流 。 


使 用 ArrayList 代替 ConcurrentLinkedDeque。 


,实现 微型 基准 测试 。 使 用 一 个 面向 基准 测试 
1is 1() 方 法 或 者 nanoTime ( 


) 方 法 度量 时 间 。 


口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 
需 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 
有 四 个 核 。 
对 于 含有 单词 james 和 bond 的 第 一 个 查询 ， 其 执行 时 间 如 下 (单位 : 毫秒 )。 
Intel 架构 AMD 架构 
串 行 版 并 发 版 串 行 版 并 发 版 

基本 搜索 1310.845 650.83 3286.336 1732.431 

约 简 搜索 1179.955 645.184 3172.025 1521.285 
HTML 搜索 1457.035 785.553 3351.34 2089.5 
预 加 载 搜索 84.174 43.716 152.663 104.394 
执行 器 搜索 90.714 47.865 144.375 111.829 

对 于 带 有 单词 gone、with、the 和 wind 的 第 二 个 查询 ， 其 执行 时 间 如 下 【〈 单 位: 毫秒 )。 

Intel 架构 AMD 架构 
串 行 版 并 发 版 串 行 版 并 发 版 

基本 搜索 1425.664 853.543 3822.322 1787.31 
约 简 搜 索 1159.872 644.429 3236.021 1540.008 
HTML 搜索 1428.503 807.955 3358.694 2330.248 
预 加 载 搜索 75.803 49.417 161.131 120.313 
执行 器 搜索 89.737 44.969 149.358 109.485 
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对 于 含有 单词 rocky 的 第 三 个 查询 ， 执 行 时 间 如 下 《单位 : 毫秒 )。 


Intel 架构 AMD 架构 
串 行 版 并 发 版 串 行 版 并 发 版 
基本 搜索 1274.524 706.979 3163.459 1446.918 
约 简 搜 索 1165.619 767.027 3167.887 1586.318 
HTML 搜索 1167.504 677.001 3196.033 2224.549 
预 加 载 搜索 74.287 45.014 140.17 101.741 
执行 器 搜索 81.929 47.868 142.389 107.507 


最 后 ， 下 表 为 返回 有 关 倒 排 索 引信 息 的 各 方法 的 平均 执行 时 间 〈 单 位 : 毫秒 )。 


Intel 架构 AMD 架构 
串 行 版 并 发 版 串 行 版 并 发 版 
getWordsInFilel 80.112 37.111 121.379 79.084 
getWordsInFile2 68.627 30.371 121.452 7175.397 
getAverageTfxidf 127.382 62.966 259.749 145.967 
maxTfxidf 31.64 28.207 89.013 76.604 
minTfxidf 40.256 30.228 91.784 82.566 


可 以 得 出 如 下 结论 。 
口 读 取 倒 排 索引 以 获取 相关 文档 列表 时 ， 算 法 的 并 发 版 本 展现 了 更 好 的 性 能 。 
口 采用 预先 载 入 倒 排 索引 的 版 本 时 ， 该 算法 的 并 发 版 本 也 在 各 种 情况 下 表现 出 了 较 好 的 性 能 。 
口 对 于 那些 能 够 返回 倒 排 索引 相关 信息 的 方法 ， 算 法 的 并 发 版 本 总 是 具有 更 好 的 性 能 。 
最 后 使 用 加 速 比比 较 三 个 查询 的 并 行 流 和 顺序 流 处 理 情况 ,例如 ,对 于 预先 载 入 倒 排 索引 的 James 
Bond 查询 ， 有 如 下 公式 。 


S 和 ea 152.663 = 
rr Tose 104.304 , 
Tia 84. 1 74 
Sintel Ee Ea 三 下。 
7 43.716 


最 后 ， 在 第 三 种 方法 中 ,我 们 生成 了 含有 查询 结果 的 HTML 网 页 。 对 于 带 有 单词 james bond 
的 第 一 个 查询 ， 搜 索 到 的 前 儿 个 结果 如 下 。 


四 Search Results with Strear x 


CG (filey///C:/dev/concurrency/examples/SearchIinvertedIndex/output/query1_serial_results.html 


930379.txt: Casino Royale (2006 film): 411.54 


}} James Bond. Neal Purvis. novel of licence to kill. After preventing a terrorist attack at Miami International Airport. Bond falls in love with Vesper Lynd. the treasury employee assigned to provide the 
money he needs to bankrupt a terrorist financier Le Chiffre. by beating him in a high-stakes poker game. The story arc continues in the following Bond film. Quantum of Solace (2008) 


T reboots the series. establishing a new timeline and narrative framework not meant to precede or succeed any previous Bond film. which allows the film to show a less experienced and more vulnerable Bond 
Additionally. the character Miss Moneypenny is. for the first time in the series. completely absent. Casting the film involved a widespread search for a new actor to portray James Bond. and significant 

6 controversy surrounded Craig when he was selected to succeed Pierce Brosnan in October 2005. Location filming took place in the Czech Republic. the Bahamas. Italy and the United Kingdom with interior 
sets built at Pinewood Studios. Although part of the storyline is set in Montenegro. no filming took place there. Casino Royale was produced by Eon Productions for Metro-Goldwyn-Mayer and Columbia 

1 Pictures. making it the first Eon-produced Bond film to be International co-production|co-produced by the latter studio. 


h Casino Royale premiered at the Odeon Leicester Square on 14 November 2006. It received largely positive critical response, with reviewers highlighting Craigs performance and the reinvention of the 
character of Bond It earned over $ worldwide. becoming the highest-grossing James Bond film until the release of Skyfall in 2012 


6268880.txt: On Her Majesty's Secret Service (film): 342.36 


alt=A man in a dinner jacket on skis. holding a gun. Next to him is a red-headed woman also on skis and with a gun. They are being pursued by men on skis and a bobsleigh. all with guns. In the top left of 
1 the picture are the words FAR UP! FAR OUT! FAR MOREI James Bond 007 is back! 
号 


James Bond 1963 novel You Only James Bond. During the making of the film. Lazenby decided that he would play the role of Bond only once 


P¢ This is the only Bond film to be directed by Peter R. Hunt. who had served as a film editor and second unit director on previous films in the series. Hunt along with producers Albert R. Broccoli and Harry 

|@ Saltzman decided to produce a more realistic film that would follow the novel closely. It was shot in Switzerland. England and Portugal from October 1968 to May 1969. Although its cinema release was not 
as lucrative as its predecessor You Only Live Twice. On Her Majestys Secret Service was still one of the top performing films of the year. Critical reviews upon release were mixed. but the films reputation 
has improved over time. although reviews of Lazenbys performance continue to vary. 

里 


| 6446053.txt: Dr. No (film): 342.23999999999995 


EE 
HF | alt= In the foreground. Bond wears a suit and is holding a gun: four female characters from the 有 lm are next to him 


Ft James Bond Casino Royale being the debut for the character however the film makes a few references to threads from earlier books. 
FR Dr. No was produced on a low budget and was a financial success. While critical reaction was mixed upon release. over time the film has gained a reputation as one of the series best instalments. The film was 
the first of a successful series of 23 Bond films. Dr No also launched a genre of "secret agent" films that flourished in the 1960s. The film also spawned a spin-off comic book and soundtrack album as part of 


cits promotion and marketing 
Wi oI We vear. WIINCal reviews upon felease Were Dlxeq. Dur 


对 于 含有 单词 gone with the wind 的 第 二 个 查询 ， 其 搜索 到 的 前 几 个 结果 如 下 。 


站 Search Results with Strear x Wl = 


CG [filey///C/dev/concurrency/examples/SearchinvertedIndex/output/query2_serial_results.html 


2804704.txt: Gone with the Wind (film): 292.03000000000003 


|- Gone with the Wind (film) 


name = Gone with the Wind 


image = Poster - Gone With the Wind 01.jpg 


S5224.txt: Citizen Kane: 236.36 


alt = Poster showing two women in the bottom left of the picture looking up towards a man in a white suit in the top right of the picture. "Everybodys talking about it. Its terrific!" appears in the top right of 
the picture. "Orson Welles" appears in block letters between the women and the man in the white suit. "Citizen Kane" appears in red and yellow block letters tipped 60A° to the right. The remaining credits 
are listed in fine print in the bottom right. 


caption = Theatrical release poster 
Harold McCormick. and aspects of Welless own life. Upon its release. Hearst prohibited mention of the film in any of his newspapers. Kanes career in the publishing world is bom of idealistic social service. 


but gradually evolves into a ruthless pursuit of power. Narrated principally through Flashback (narrative)|flashbacks. the story is told through the research of a newsreel reporter seeking to solve the mystery of 
the newspaper magnates dying word: "Rosebud" 


18456519.txt: The Storm Warriors: 154.12 


The Storm Warriors 


{{Infobox film name = The Storm Warriors image = Storm-riders-2-movie3.jpg caption = Teaser poster director = Danny Pang Oxide Pang producer = Pang Brothers story = Ma Wing-shing starring = Aaron 
Kwok Ekin Cheng Nicholas Tse Charlene Choi Simon Yam Kenny Ho studio = Universe Entertainment Sil-Metropole Organisation|Sil-Metropole Chengtian Entertainment distributor = Universe Films 
Distribution Co. Ltd. released = country = Hong Kong language = Cantonese budget = gross = USS5.668.356 


The Storm Warriors ( ) is a 2009 Hong Kong film produced and directed by the Pang brothers. It is the second live-action film adaptation of artist Ma Wing-shings manhua series Fung Wan. following the 
1998 film The Storm Riders. The Storm Warriors is based on Fung Wan s Japanese Invasion story arc The Death Battle. Ekin Cheng and Aaron Kwok respectively reprise their roles as Wind and Cloud. who 
this time find themselves up against Lord Godless (Simon Yam). a ruthless Japanese warlord bent on invading China. The film is a co-production between Universe Entertainment and Sil-Metropole 
Organisation. 


1186616.txt: The Shining (film): 138.94 
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最 后 ， 查 询 rocky 搜索 到 的 前 几 个 结果 如 下 所 示 。 


个 


] file;///C:/dev/concurrency/examples/SearchInvertedIndex/output/query3_serial_results.html 
153435.txt: Rocky V: 386.44 


RockyV 
name =Rocky V 


image = Rocky_v_poster.jpg 


2887437.txt: Rocky Balboa (film): 366.62 


Rocky Balboa (film) 
name = Rocky Balboa 


}} title character The sixth film in the Rocky (film series)|Rocky series that began with the Academy Award-winning Rocky thirty years earlier in 1976. the film portrays Balboa in retirement a widower 
living in Philadelphia and the owner and operator of a local Italian restaurant called "Adrians". named after his late wife 


45772.txt: Rocky: 312.13 


Rocky 
name = Rocky 


image = Rocky_poster .jpg 


104984.txt: Rocky IV: 252.67 


Rocky IV 
{{Infobox film name = Rocky IV image = Rocky_IV jpg caption = Theatrical release poster director = Sylvester Stallone producer = Robert Chartoff Irwin Winkler writer = Sylvester Stallone 


}} sports film title = Rocky Movies accessdate = 2007-09-17 work = Box Office Mojo publisher = Box Office Mojo. LLC. url = http://boxofficemoio.com/franchises/chart/7id=rocky.htm archiveurl = 
http://web.archive.org/web/20070607221410/http://boxofficemojo.com /franchises/chart/?7id=rocky htm archivedate = 2007-06-07 quote = 


| sia3 0 she Donal TU QQET ys ann 


8.4 小 结 


本 章 介 绍 了 流 ， 这 是 Java 8 中 引入 的 一 种 新 特性 ， 它 受到 了 函数 式 编程 的 启示 ， 而 且 为 使 用 新 的 
lambda 表达 式 铺 平 了 道路 。 流 是 一 个 数据 序列 〈 并 不 是 一 个 数据 结构 )， 人 允许 以 顺序 或 者 并 发 方式 应 
用 一 个 操作 序列 ， 对 元 素 进行 筛选 、 转 换 、 排 序 、 约 简 或 组 织 ， 以 获得 一 个 最 终 对 象 。 

你 也 了 解 了 流 的 主要 特征 ,在 自己 的 串 行 应 用 程序 或 并 发 应 用 程序 中 使 用 这 些 流 时 ， 应 该 对 它们 
加 以 考虑 。 

最 后 ， 我 们 在 两 个 样 例 中 使 用 了 流 。 第 一 个 样 例 几 乎 使 用 了 Stream 接口 提供 的 全 部 方法 ， 以 计 
算 一 个 大 规模 数据 集 的 统计 数据 。 其 中 ,使 用 了 UCI 机 器 学 习 资 源 库 的 Online Retail 数据 集 。 第 二 个 
样 例 实现 了 多 种 不 同 的 方式 来 在 倒 排 索引 中 构建 一 个 搜索 应 用 程序 ， 以 便 获得 与 查询 最 相关 的 文档 。 
这 是 信息 检索 领域 最 常见 的 任务 之 一 。 为 此 ， 我 们 使 用 了 reauce () 方 法 作为 流 的 末端 操作 。 

下 一 章 将 继续 讲解 流 ， 但 是 会 更 加 关注 collect () 末端 操作 。 


we 


第 9 章 
使 用 并 行 流 处 理 大 规模 数据 
集 : MapCollect 模型 


第 8 章 介 绍 了 流 的 概念 。 流 就 是 一 个 元 素 序 列 ， 可 以 使 用 并 行 或 者 顺序 的 方式 进行 处 理 。 本 章 将 
继续 学 习 如 何 处 理 流 ， 主 要 涉及 如 下 主题 。 

口 collect () 方 法 。 

口 第 一 个 例子 : 无 索引 条 件 下 的 数据 搜索 。 

口 第 二 个 例子 : 推荐 系统 。 

口 第 三 个 例子 : 社交 网 络 中 的 共同 联系 人 。 


9.1 使 用 流 收集 数据 


第 8 章 简 要 介绍 了 流 。 下 面 回顾 一 下 流 最 重要 的 几 个 特征 。 

口 流 并 不 存储 元 素 。 它 们 只 处 理 存 放 在 数据 源 (数据 结构 、 文 件 等 ) 中 的 元 素 。 

口 流 不 可 重用 。 

口 流 可 对 数据 进行 延迟 处 理 。 

口 流 操 作 不 能 修改 流 的 源 。 

口 流 人 允许 你 进行 链 式 操作 ， 因 此 一 项 操作 的 输出 是 下 一 项 操作 的 输入 。 

流 由 下 述 三 个 要 素 构 成 。 

口 生成 流 元 素 的 源 。 

口 0 个 或 多 个 中 间 操 作 ， 这 些 操作 可 以 产生 输出 ， 形 成 男 一 个 流 。 

口 一 个 可 以 产生 结果 的 末端 操作 ， 该 结果 既 可 以 是 一 个 简单 对 象 、 数 组 、Colletion 、Map ， 也 
可 以 是 其 他 的 东西 。 

Stream API 提供 了 不 同 的 末端 操作 , 不 过 其 中 两 个 操作 更 加 重要 , 它们 具有 更 好 的 灵活 性 和 更 强 
的 能 力 。 在 第 8 章 中 ,你 学 会 了 如 何 使 用 redquce () 方 法 ， 而 在 本 章 ， 将 学 会 如 何 使 用 collect () 方 
法 。 下 面 首先 简单 介绍 一 下 该 方法 。 
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collect () 方 法 


collect () 方 法 可 对 流 的 元 素 进行 转换 和 分 组 ， 生 成 一 个 含有 流 最 终结 果 的 新 数据 结构 。 你 可 以 
使 用 多 达 三 种 不 同 的 数据 类 型 : 一 种 输入 数据 类 型 ， 即 来 自流 的 输入 元 素 的 数据 类 型 ; 一 种 中 间 数 据 类 
型 ,用 于 在 collect () 方 法 运行 过 程 中 存放 元 素 ; 以 及 一 种 输出 数据 类 型 ， 它 由 collect ( ) 方 法 返回 。 
collect () 方 法 有 两 个 版 本 。 第 一 个 版 本 接收 下 述 三 种 函数 型 参数 。 
口 Supplier 函数 : 这 是 一 个 创建 中 间 数 据 类 型 对 象 的 函数 。 如 果 使 用 顺序 流 ， 该 方法 会 被 调用 
一 次 。 如 果 使 用 并 行 流 ， 该 方法 会 被 调用 多 次 ， 而 且 每 次 都 必须 产生 一 个 新 对 象 。 
口 Accumulator 函数 : 调用 该 函数 可 以 处 理 输入 元 素 ， 并 且 在 中 间 数 据 结构 中 存放 该 元 素 。 
口 Combiner 函数 : 调用 该 函数 可 以 将 两 个 中 间 数 据 结构 合 二 为 一 。 该 函数 只 有 在 处 理 并 行 流 
时 才 会 被 调用 。 
这 个 版 本 的 collect () 方 法 用 到 了 两 种 不 同 的 数据 类 型 : 来 自流 的 元 素 的 输入 数据 类 型 ， 以 及 
用 于 存放 中 间 元 素 并 返回 最 终结 果 的 中 间 数 据 类 型 。 
collect () 方 法 的 第 二 个 版 本 接收 一 个 实现 collector 接口 的 对 象 。 你 可 以 自己 实现 该 接口 ， 
但 是 使 用 collector .of () 静 态 方法 更 容易 。 该 方法 的 参数 如 下 所 示 。 
口 Supplier: 该 函数 创建 了 一 个 中 间 数 据 类 型 的 对 象 ， 其 用 法 参照 前 面 的 介绍 。 
口 Accumulator: 调用 该 函数 可 以 处 理 一 个 输入 元 素 ， 如 果 必 要 还 可 对 该 元 素 进行 转换 ， 并 且 
将 其 存放 在 中 间 数 据 结构 中 。 
口 Combiner: 调用 该 函数 可 以 将 两 个 中 间 数 据 结 构 合 并 成 一 个 ， 用 法 参照 前 面 的 介绍 。 
口 Finisher: 如 果 需 要 进行 最 终 的 转换 或 者 计算 ， 调 用 该 函数 可 以 将 中 间 数 据 结构 转换 成 最 终 
的 数据 结构 。 
口 Characteristics: 可 以 使 用 这 个 最 后 的 变量 参数 表明 所 创建 的 收集 器 的 一 些 特征 。 
实际 上 ， 这 两 个 版 本 之 间 存 在 稍 许 差别 。 带 有 三 个 参数 的 collect () 方 法 接收 的 Combiner 是 
Biconsumer， 它 必须 将 第 二 个 中 间 结 果 合 并 到 第 一 个 中 间 结 果 中 。 而 这 一 版 本 的 collect () 方 法 采 
用 的 Combiner 是 BinaryOperator, 而 且 应 该 返回 该 Combiner。 因 此 这 一 版 本 的 Collect 方法 既 可 以 
选择 将 第 二 个 中 间 结 果 合并 到 第 一 个 ,也 可 以 将 第 一 个 中 间 结 果 合 并 到 第 二 个 ,或 者 也 可 以 创建 一 个 
新 的 中 间 结 果 。of () 方 法 还 有 另 一 个 版 本 ， 除 了 Finisher 之 外 ， 参 数 都 相同 。 在 本 例 中 ， 并 不 执行 最 
终 转 换 。 
Java 在 Collector 工厂 类 中 提供 了 一 些 预 定义 的 收集 器 。 可 以 通过 这 些 收集 器 的 静态 方法 获得 
这 些 收集 器 。 如 下 是 其 中 的 一 些 方法 。 


口 averagingDouble()、averagingInt () 和 averagingLong(): 这 些 方法 返回 一 个 收集 
器 ， 能 够 计算 double、int 或 者 long 型 函数 的 算术 平均 值 。 
口 groupingBy () : 该 方法 返回 一 个 收集 器 ， 使 你 能 够 按照 其 对 象 的 某 一 属性 对 流 的 元 素 进行 


分 组 ， 生 成 一 个 Map ， 其 键 为 所 选 定 属性 的 值 ， 而 其 值 为 具有 某 一 确定 值 的 对 象 列表 。 
口 groupingByConcurrent () : 这 和 前 一 个 方法 相似 ， 只 是 有 两 点 不 同 。 第 一 个 不 同 点 在 于 
该 方法 在 并 行 模式 下 比 groupingBy () 方 法 更 快 , 但 是 在 顺序 模式 下 却 更 慢 。 第 二 个 ( 也 是 
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最 重要 的 ) 不 同 点 在 于 groupingByConcurrent () 函数 是 一 个 无 序 的 收集 器 。 不 能 保证 列表 
中 项 的 顺序 和 其 在 流 中 的 顺序 相同 。 另 一 方面 ，groupingBy () 收集 器 则 能 够 保证 排序 。 

口 joining() : 该 方法 返回 一 个 collector 工厂 类 ， 将 输入 元 素 串 联 为 一 个 字符 串 。 

口 bartitioningBy(): 该 方法 返回 一 个 collector 工厂 类 ， 基 于 某 个 谓词 的 结果 对 输入 元 

素 进行 划分 。 

口 summarizingDouble()、summarizingInt () 和 summarizingLong(): 这 些 方法 返回 一 

个 collector 工厂 类 ， 计 算 输入 元 素 的 汇总 统计 值 。 

口 toMap () : 该 方法 返回 一 个 collector 工厂 类 ， 使 你 可 以 基于 两 个 映射 函数 将 输入 元 素 转换 

为 一 个 Map。 

口 toconcurrentMap () : 该 方法 与 前 一 个 类 似 ， 只 是 以 并 发 方式 工作 。 在 不 考虑 定制 归并 器 的 
情况 下 ，toconcurrentMap() 只 是 在 并 行 流 的 情况 下 较 快 。 与 groupingByConcurrent () 
方法 一 样 ， 这 也 是 一 个 无 序 收 集 器 ， 而 toMap () 则 采用 相遇 时 的 排序 执行 转换 。 

口 toList () : 该 方法 返回 一 个 collector 工厂 类 ， 将 输入 元 素 存 放 到 一 个 列表 中 。 

口 tocollection() : 该 方法 使 你 能 够 按照 相遇 时 的 排序 将 输入 元 素 累 加 到 一 个 新 的 
Collection 工厂 类 (TreeSet、LinkedHashSet 等 ) 。 该 方法 接收 一 个 创建 该 Collection 
的 supplier 接口 实现 作为 参数 。 

口 maxBy () 和 minBy () : 该 方法 返回 一 个 Collector 工厂 类 ,根据 以 参数 传递 的 比较 器 产生 

最 大 元 素 和 最 小 元 素 。 

口 toset () : 该 方法 返回 一 个 collector ， 它 将 输入 元 素 存放 到 一 个 集合 。 
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在 第 8 章 中 ， 你 学 会 了 如 何 实现 一 个 搜索 工具 ， 使 用 倒 排 索引 查找 与 输入 查询 相似 的 文档 。 该 数 
据 结构 使 搜索 操作 更 加 方便 和 快捷 ， 但 是 在 有 些 场景 下 ， 你 需要 针对 一 个 大 规模 数据 集 做 搜索 操作 ， 
而 且 并 没有 倒 排 索引 帮忙 。 这 时 需要 处 理 该 数据 集 的 所 有 元 素 以 获得 正确 结果 。 在 本 例 中 ,你 将 看 到 
这 样 一 个 场景 ， 并 且 看 到 Stream API 的 reduce() 方 法 如 何 能 帮助 你 。 

为 了 实现 该 示例 ， 将 使 用 亚马逊 联合 采购 网 络 元 数据 的 数据 子 集 ， 其 中 包含 了 亚马逊 销售 的 约 
548 552 个 商品 的 相关 信息 ,包括 商品 名 称 、 销 售 排名 、 相 似 商品 列表 、 类 别 和 评论 等 。 可 以 在 SNAP 
搜索 “Amazon product co-purchasing network metadata” 下 载 该 数据 集 。 我 们 选取 其 中 的 前 20 000 个 商 
品 ,并 且 将 每 个 商品 记录 都 存放 到 一 个 单独 的 文件 中 。 为 了 便于 数据 处 理 ， 我 信 更 改 了 其 中 某 些 字段 
的 格式 。 所 有 字段 都 采用 property:value 格式 。 


9.2.1 基本 类 


有 一 些 类 是 并 发 版 本 和 串 行 版 本 共享 的 。 在 此 详细 介绍 一 下 其 中 的 每 个 类 。 
1. Product 类 
Product 类 存放 了 有 关 商 品 的 信息 。 下 面 给 出 了 Proquct 类 。 


As 
| 


由 
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口 id: 这 是 商品 的 唯一 标识 符 。 


口 title: 这 


是 
口 group: 这 是 


Software、 Sports、 


口 similar: 这 是 文件 中 
口 categories: 这 是 一 个 


口 reviews: 这 是 一 个 Review 对 象 列表 ， 其 中 含有 该 商品 的 评论 (用 


口 asin: 这 是 亚马逊 的 标准 身份 识别 码 。 
商品 的 名 称 。 
商品 的 分 组 。 该 属性 的 取 值 可 以 为 Baby Product、Book、CD、DVD、Music、 


Toy 、Vidaeo 或 者 Video Games。 


口 salesrank: 这 表示 亚马逊 公司 的 销售 排名 。 


所 包含 的 相似 项 的 数目 。 


个 string 对 象 列表 ， 其 中 含有 指派 给 该 商品 的 类 别 。 


户 和 评分 ) 。 


该 类 仅 包 含 属 性 定义 以 及 与 之 对 应 的 getxxx() 方 法 和 setxxx() 方 法 ， 因 此 这 里 不 再 给 出 其 源 


代码 。 


2. Review 类 


如 前 所 述 ，Progduct 类 含有 一 个 Review 对 象 列表 ， 


下 两 个 属性 存放 了 每 个 评论 的 信息 。 


口 user: 进行 评论 的 用 户 的 内 部 编码 。 
口 value: 用 户 对 商品 的 评分 。 


其 中 含有 用 户 对 商品 的 评论 信息 。 该 类 用 如 


该 类 仅 包 含 属性 定义 以 及 对 应 的 getXXX() 和 setXXX() 方 法 ， 因 此 不 再 给 出 源 代 码 。 


3. ProductLoader 类 
ProductLoader 类 人 允许 从 


load () 方 法 ， 该 方法 接收 一 个 Path 对 象 ( 


对 象 。 其 源 代码 如 下 : 


public class ProductLoader { 
public static Product load(Path path) { 
try (BufferedReader reader = Files.newBufferedReader (path)) 
Product product=new Product (); 
String line=reader.readLine(); 


product .setIid(line.split(™:") [1]); 
line=reader.readLine(); 
product.setAsin(line.split(":")[1]); 
line=reader.readLine(); 

product.setTitle(line.substring (line.indexOf(':')+1)); 
line=reader.readLine(); 

product .setGroup(line.split(":")[1]); 
line=reader.readLine(); 

product.setSalesrank (Long.parseLong (line.split(":")[1])); 
line=reader.readLine(); 
product.setSimilar(line.split(":")[1]); 
line=reader.readLine(); 

int numItems=Integer.parseInt (line.split(":")[1]); 


for (int i=0; i<numItems; i++) { 
line=reader.readLine(); 


尔 从 某 个 文件 将 有 关 某 一 商品 的 信息 加 载 到 Produc 
其 中 含有 商品 信息 的 文件 路 径 )， 并 且 返 


{ 


L 对 象 。 该 类 实现 了 


回 一 个 Product 
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product .addCategory (line.split(":")[1]); 
} 


line=reader.readLine(); 
numItems=Integer.parseInt (line.split(":")[1]); 
for (int i=0; i<numItems; i++) { 
line=reader.readLine(); 
String tOokensl]=Line: split(t":")y 
Review review=new Review(); 
review.setUser (tokens[1]); 
review.setValue (Short.parseShort (tokens [2])); 
product .addReview (review); 
} 
return product; 
} catch (IOException x) { 
throw newe UncheckedIOException (x); 


9.2.2 第 一 种 方式 : 基本 搜索 


第 一 种 方式 是 接收 一 个 单词 作为 输入 查询 ,搜索 所 有 存储 商品 信息 的 文件 ， 看 看 是 否 在 定义 商品 
的 某 个 字段 中 含有 该 单词 ， 不 论 对 哪个 商品 都 这 样 操 作 。 这 将 仅 显 示 包 含 该 单词 的 文件 名 。 

为 了 实现 该 基本 方式 ， 我们 实现 了 concurrentMainBasicSearch 类 ， 它 实现 了 main() 方 法 。 
首先 ， 初始化 查询 和 存放 所 有 文件 的 基本 路 径 。 


public class ConcurrentMainBasicSearch { 


public static void main(String args[]) { 
String query = args[0]; 


Path file = Paths.get ("data"); 9 
我 们 只 需要 一 个 流 来 生成 含有 结果 的 字符 串 列表 ， 如 下 所 示 : 


try { 

Date start, end; 

start = new Date(); 

ConcurrentLinkedDeque<String> results = Files.walk (file, 
FileVisitOption.FOLLOW_LINKS) .parallel().filter(f -> 
f.tostring() .endsWith(".txt")) 

.Collect (ArrayList<String>: :new, 
new ConcurrentStringAccumulator (query), List::addAll); 
end = new Date(); 


我 们 的 流 包 含 下 述 元 素 。 

(D 使 用 Files 类 的 walk() 方 法 启动 流 , 将 文件 集合 的 基本 Path 对 象 作 为 参数 传递 。 该 方法 将 
所 有 文件 作为 流 返 回 ， 并 且 返 回 该 路 径 下 的 所 有 目录 。 

(2) 然后 ， 使 用 parallel () 方 法 将 该 流转 换 成 一 个 并 发 流 。 
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(3) 我 们 仅 对 扩展 名 为 .txt 的 文件 感 兴趣 ， 因 此 使 用 filter () 方 法 对 文件 进行 第 选 。 
(4) 最 后 , 使 用 collect () 方 法 将 Path 对 象 流转 换 为 String 对象 (含有 文件 名 ) 的 Concurrent- 


LinkedDequeo 


我 们 使 用 col 


相应 结果 。 


口 Supplier: 使 用 ArrayList 类 的 new 方法 引用 为 每 个 线程 创 到 


lect () 方 法 的 三 参数 版 本 用 到 了 下 述 函 数 型 参数 。 


新 的 数据 结构 ， 以 便 存放 


1 
> 


口 Accumulator: 我 们 在 ConcurrentstringAccumulator 类 中 实现 了 自己 的 Accumulator。 稍 
后 将 详细 介 


口 Combiner: 使 用 concurrentLinkedDeque 类 的 adgA1l1 () 方 法 连接 两 个 数据 结构 。 在 本 例 
1， 会 将 第 二 个 Collection 中 的 所 有 元 素 添加 到 第 一 个 Collection 中 。 而 第 一 个 Collection 既 可 


绍 该 类 。 


用 于 进一步 的 合并 ， 也 可 以 作为 最 终结 果 。 


最 后 ， 在 控制 台 输出 从 流 获得 的 结果 。 


System.out .println("Results for Query: 


"+query); 


System.out .println("** 炎 火炎 火炎 火炎 大大 炎 大 是) 了 


result 
System 


}> Gateh 


s.forEach(System.out::println); 
.out .println("Execution Time: "+(end.getTime()- 


start.getTime())); 
(IOException e) { 


e.printStackTrace(); 


} 
} 
} 


全 


每 当 要 人 处理 流 的 一 个 路 径 以 评估 是 否 必须 将 其 名 称 包含 到 结果 列表 中 时 ， 都 要 执行 Accumulator 


函数 型 参数 。 为 实现 这 种 功能 ， 我 们 实现 了 concurrentStringAccumulator 类 。 下 面 看 看 该 类 的 


详细 情况 。 


ConcurrentStringAccumulator 类 


ConcurrentStringAccumulator 类 加 载 了 一 个 带 有 商品 信息 的 文件 ， 以 判断 它 是 否 包含 查询 


public class 


中 的 术语 。 它 实现 了 Biconsumer 接口 ， 这 是 因为 我 们 要 将 其 用 作 collect () 方 法 的 一 个 参数 。 使 
用 List<String> 类 和 Path 类 参数 化 该 接口 。 


ConcurrentStringAccumulator implements BiConsumer 
<List<String>, Path> { 


它 将 查询 定义 为 一 个 内 部 属性 ， 并 该 属性 在 构造 函数 中 被 初始 化 ， 如 下 所 示 。 


private String word; 


public ConcurrentStringAccumulator (String word) { 
this.word=word.toLowerCase(); 


} 


然后 ， 实 现在 Biconsumer 接口 中 定义 的 accept () 方 法 。 该 方法 接收 两 个 参数 : 一 个 是 


ConcurrentLinkedDequ <String> 类 ， 另 一 个 是 Path 类 。 


为 了 加 载 文件 并 


且 判 断 它 是 否 包 含 该 查询 ， 使 用 以 下 的 流 。 


9.2 第 一 个 例子 : 无 索引 条 件 下 的 数据 搜索 “209 


@Override 
public void accept (List<String> list, Path path) { 


long counter; 


try { 
counter = Files.lines(path) .map(l1 -> 1.split(":")[1] .toLowerCase()) 
.filter(1 -> 1.contains (word.toLowerCase())).count(); 


我 们 的 流 包含 下 述 元 素 。 

(1) 首先 , 使 用 Files 类 的 lines () 方 法 加 载 文件 中 的 行 到 一 个 流 。 文 件 每 一 行 均 参 照 property: 
value 格式 。 

(2) 其 次 ,使 用 map () 方 法 获取 每 个 属性 的 取 值 。 

(3) 然后 ， 使 用 filter () 方 法 仅 选 取 那 些 含有 待 搜索 单词 的 行 。 

(4) 最 后 ， 使 用 count ( ) 方法 计算 流 中 剩 下 的 元 素数 。 

如 果 Counter 变量 的 值 大 于 0， 那 么 该 文件 包含 查询 术语 ， 如 此 便 将 该 文件 的 名 称 添加 到 存放 结 
果 的 concurrentLinkedDeque 类 。 


if (counter>0) { 
list.add(path.toSstring()); 
} 

} catch (Exception e) { 
System.out .println (path); 
e.printSstackTrace(); 

} 

} 


9.2.3 ”第 二 种 方式 : 高 级 搜索 
基本 搜索 方式 存在 一 些 缺 陷 。 


口 该 方式 在 所 有 属性 中 查找 查询 中 的 术语 ， 但 是 或 许 我 们 只 想 对 其 中 的 一 部 分 进行 查找 ， 例 如 
在 商品 名 称 中 查找 。 

口 该 方式 仅 显示 文件 名 ， 但 是 其 实 还 可 以 显示 更 多 的 信息 ， 例 如 也 可 以 显示 商品 名 称 这 样 的 附 
加 信息 。 


为 了 解决 这 些 问 题 ， 我 们 将 构造 一 个 实现 main () 方 法 的 concurrentMainsearch 类 。 首 先 ， 
初始 化 查询 和 存放 所 有 文件 的 基础 Path 对 象 。 


public class ConcurrentMainSearch { 
public static void main(String args[]) { 
String query = args[0]; 
Path file = Paths.get ("data"); 


然后 ， 使 用 下 面 的 流 来 生成 有 关 Product 对 象 的 ConcurrentLinkedDeque 类 。 


try { 
Date start, end; 
start=new Date(); 
List<Product> results = Files.walk (file, FileVisitOption 


210 第 9 章 使 用 并 行 流 处 理 大 规模 数据 集 : MapCollect 模型 


.FOLLOW_LINKS) .parallel().filter(f -> f 
.toSstring() .endsWitn(".txt")) 

.Collect (ArrayList<Product>: :new, new 
ConcurrentObjectAccumulator (gquery), 
List::addAll); 


这 个 流 和 在 基本 方式 中 实现 的 流 具 有 相同 的 元 素 ， 只 是 有 下 述 两 点 变化 。 

口 在 collect () 方 法 中 ,在 Accumulator 参 数 中 使 用 了 concurrentobjectaAccumulator 类 。 
口 使 用 Prodquct 对 象 参数 化 ConcurrentLinkedDeque 类 。 

最 后 ， 在 控制 台中 输出 结果 。 但 是 在 本 例 中 ,我们 输出 每 个 商品 的 名 称 。 


System.out.println("Results"); 

System,out,print]n ("Mm* 灾 大 大 太太 大 大 大 大 大 类 呈 ) > 

results.forEach(p -> System.out.println(p.getTitle())); 

System.out .println("Execution Time: "+(end.getTime()-— 
start.getTime())); 


} catch (IOException e) { 
e.printStackTrace(); 
} 
} 
你 可 以 更 改 上 述 代 码 ， 输 出 有 关 商 品 的 其 他 任何 信息 ， 例 如 销售 排名 或 者 类 别 。 
与 之 前 相 比 ， 这 一 实现 最 重要 的 变化 在 于 concurrentobjectaccumulator 类 。 下 面 详细 介绍 
一 下 该 类 。 
ConcurrentObjectAccumulator 类 
ConcurrentObjectAccumulator 类 实现 了 Biconsumer 接口 ,该 接口 由 ConcurrentLinked- 
Deque<Product> 类 和 Path 类 参数 化 , 这 是 因为 我 们 希望 在 collect () 方 法 中 使 用 它 。 该 类 定义 了 
名 为 wora 的 内 部 属性 来 存放 查询 中 的 术语 。 该 属性 在 该 类 的 构造 函数 中 初始 化 。 


public class ConcurrentObjectAccumulator implements BiConsumer 
<List<Product>, Path> { 


本 


private String word; 


public ConcurrentObjectAccumulator (String word) { 
this.word = word; 


} 
accept () 方 法 (在 Biconsumer 接口 中 定义 ) 的 实现 非常 简单 。 


@Override 
public void accept (List<Product> list, Path path) { 


Product product=ProductLoader.load(path); 


if (product.getTitle() .toLowerCase() .contains (word.toLowerCase()))t{ 
list.add(product); 
} 
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该 方法 接收 指向 竺 处 理 文件 的 Path 对 象 作 为 参数 , 并 采用 concurrentLinkedDeque 类 存放 结 
果 。 我 们 使 用 ProductLoader 类 将 竺 处 理 文件 加 载 到 Product 对 象 ， 然 后 检查 该 商品 的 名 称 中 是 
否 包 含 查询 中 的 术语 。 如 果 包 含 ， 那 么 将 该 Product 对 象 添 加 到 concurrentLinkedDeque 类 。 


9.2.4 本 例 的 串 行 实现 


与 本 书 的 其 他 例子 一 样 ， 两 个 版 本 的 搜索 操作 都 实现 了 一 个 串 行 版 本 ， 以 便 验 证 并 发 流 是 否 能 带 
来 性 能 上 的 改进 。 

你 可 以 在 前 面 介绍 的 四 个 类 中 删除 stream 对 象 中 parallel () 方 法 的 调用 (该 方法 使 流 变 为 并 
发 流 )， 实 现 与 之 对 等 的 串 行 版 本 。 

在 本 书 的 源 代 码 中 ， 我 们 给 出 了 serialMainBasicSearch、SerialMainSearch、Serial- 
stringAccumulator 和 SerialobjectaAccumulator 等 类 ， 它 们 都 是 按照 前 面 的 更 改 方法 得 到 的 
与 并 行 版 对 等 的 串 行 版 类 。 


9.2.5 ”对 比 实现 方案 


我 们 对 实现 方案 ( 两 种 方案 : 串 行 版 和 并 发 版 ) 进行 了 测试 ， 以 比较 其 执行 时 间 。 为 进行 测试 ， 
采用 了 三 种 查询 。 

DQ Patterns 

DQ Java 

DQ Tree 

我 们 采用 JMH 框架 执行 了 这 些 示例 ， 该 框架 允许 在 Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测 


试 的 框架 是 比较 好 的 解决 方案 ， 它 直接 用 currentTimeMillis() 、nanoTime () 等 方法 度量 时 间 。 

在 两 种 不 同 的 架构 上 分 别 执行 这 些 示例 10 次 。 

口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 

器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 

口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 
有 四 个 核 。 

下 表 给 出 了 用 毫秒 表示 的 结果 。 首 先 ， 展 示 字 符 串 搜索 操作 的 结果 


a 
o 


字符 串 搜 索 
Intel 架构 AMD 架构 
Java Patterns Tree Java Patterns Tree 
串 行 版 735.569 709.484 700.929 2245.603 2243.152 2207.034 
并 发 版 401.276 524.252 395.022 1058.712 1045.201 1057.155 


现在 ， 对 象 搜索 操作 的 结果 如 下 。 
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字符 串 搜 索 
Intel 架构 AMD 架构 
Java Patterns Tree Java Patterns Tree 
串 行 版 867.534 840.082 854.299 2723.535 2634.614 2640.329 
并 发 版 460.29 463.201 476.244 1218.425 1232.45 1204.245 
可 以 得 到 如 下 结论 。 
口 执行 不 同 的 查询 时 ,结果 非 常 相似 。 它 们 之 间 仅 相差 数 毫 秒 。 


口 在 所 有 情况 下 ， 
如 果 对 并 发 版 和 串 
得 到 下 面 的 结果 。 


口 字符 串 搜索 的 执行 时 间 总 是 比 对 象 搜索 的 执行 时 间 更 优 。 


并 发 流 的 性 能 都 比 串 行 流 更 好 。 


行 版 加 以 比较 ,例如 ， 使 用 加 速 比比 较 查 询 Patterns 的 字符 串 搜 索 情况 ， 可 以 


S = Tia = 2243.152 加 
2 nent 1045.201 
Sntel Tua 党 4 =1.35 
7 $524.252 


concurrent 
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推荐 系统 基于 用 户 
同样 服务 的 用 户 所 购买 


/使 用 过 的 商品 /服务 向 其 推荐 商品 或 服务 。 


我 们 使 用 在 上 一 节 


曾经 购买 /使 用 过 的 商品 /服务 向 其 推荐 商品 或 服务 ， 或 者 基于 曾经 购买 /使 用 过 


介绍 过 的 例子 实现 了 一 个 推荐 系统 。 商 品 的 每 个 描述 包括 很 多 用 户 对 商品 的 评 


论 。 这 些 评论 中 还 含有 


在 本 例 中 ,你 将 通 


用 户 对 该 商品 的 评分 。 
过 这 些 评论 获得 某 个 


用 户 可 能 感 兴趣 的 商品 列表 。 我 们 将 获得 


个 


j 户 所 购买 


商品 的 列表 。 为 了 得 到 该 列表 , 需要 对 购买 过 这 些 商 品 的 用 户 列表 和 那些 用 户 所 购买 过 的 商品 列表 进 
行 排序 ， 而 这 就 要 用 到 评论 中 的 平均 打分 。 这 样 就 可 以 得 到 针对 该 用 户 的 建议 商品 。 


9.3.1 公共 类 
我 们 在 上 一 节 使 用 


D ProductRevi 


的 公共 类 中 增加 了 两 个 新 类 。 如 下 所 示 。 


w: 该 类 采用 两 个 新 属性 扩展 了 Product 类 。 


下 面 看 看 这 两 个 类 


口 ProductRecommendation: 该 类 存储 了 一 个 商品 的 推荐 信 


的 详细 信息 。 


1. ProductReview 类 


ProductReview 类 扩展 了 Product 类 ， 它 增加 了 两 个 新 属性 。 


口 puyer: 该 属 履 


E 存 放 了 商品 客户 的 名 称 。 


口 value: 该 属 怕 


E 存 放 了 该 客户 在 其 评论 中 对 商品 的 评价 。 


自 


检 让 


o 
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该 类 中 包含 了 对 这 两 个 属性 的 定义 、 对 应 的 getXxx() 和 setXXxX1() 方 法 、 一 个 构造 函数 ( 基于 
Product 对 象 创建 PprodquctReview 对 象 )， 以 及 新 属性 的 值 。 该 类 非常 简单 ， 因 此 这 里 不 提供 其 源 
代码 。 

2. ProductRecommendation 类 

ProductRecommendation 类 存放 了 商品 推荐 所 需 的 必要 信息 ， 包 括 如 下 内 容 。 

口 title: 我 们 要 推荐 的 商品 名 称 。 
口 value: 推荐 的 分 值 ， 这 是 通过 计算 商品 所 有 评论 的 平均 分 值得 到 的 。 

该 类 包含 了 属性 定义 、 相 应 的 getXXX() 和 setxxx() 方 法 ,以 及 compareTo() 方 法 的 实现 (该 
类 实现 了 comparable 接口 ), 通过 compareTo () 方 法 可 以 按照 降序 对 推荐 评分 进行 排序 。 该 类 非常 
简单 ， 此 处 不 提供 其 源码 。 


9.3.2 推荐 系统 : 主 类 


我 们 在 concurrentMainRecommendation 类 中 实现 了 我 们 的 算法 ， 以 获得 针对 某 个 客户 的 推 
荐 商品 列表 。 该 类 实现 了 main () 方 法 , 该 方法 接收 要 获取 推荐 商品 的 客户 ID 作为 参数 。 我们 有 如 下 
代码 。 


public static void main(String[] args) { 
String user = args[0]; 
Path file = Paths.get ("data"); 
ESY 
Date start, end; 
start=new Date(); 


我 们 在 最 终 解决 方案 中 使 用 了 不 同 的 流 来 转换 数据 。 第 一 个 流 从 其 文件 中 加 载 整个 Proauct 对 
象 列表 。 


List<Product> productList = Files.walk (file, FileVisitOption 
.FOLLOW_LINKS) .parallel() .filter(f-> f 
.toString() .endsWith(".txt")) 
.Collect (ArrayList<Product>: :new, new 
ConcurrentLoaderAccumulator(), 
List::addAll); 


该 流 有 如 下 元 素 。 

(1) 使 用 Files 类 的 walk() 方 法 启动 该 流 。 该 方法 将 创建 一 个 流 来 处 理 Data 目录 下 的 所 有 文件 
和 目录 。 

(2) 然后 ， 使 用 parallel () 方 法 将 该 流转 换 成 一 个 并 发 流 。 

(3) 之 后 ， 仅 获取 扩展 名 为 .txt 的 文件 。 

(4) 最 后 ， 使 用 collect () 方 法 获取 Product 对 象 的 ConcurrentLinkedDeque 类 。 该 类 和 之 
前 用 到 的 类 非常 相似 ， 不 同 之 处 是 采用 了 男 一 个 Accumulator。 本 例 用 到 了 concurrentLoader- 
Accumulator 类 ， 这 将 在 稍 后 进行 介绍 。 


一 旦 获取 到 商品 列表 ， 便 准备 用 一 个 Map 组 织 这 些 商 品 ， 将 客户 的 标识 作为 该 Map 的 键 。 使 用 
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ProductReview 类 来 存放 有 关 这 些 商品 的 客户 信息 。 我 们 需要 为 每 个 商品 评论 创建 一 个 Product- 
Review 对 象 。 使 用 下 面 的 流 完成 该 转换 。 


Map<String, List<ProductReview>> productsByBuyer= 
productList.parallelStream() 
.<ProductReview>flatMap(p -> p.getReviews() 
.Stream() .map(r -> new ProductReview(p, r.getUser(), 
r.getValue()))).collect (Collectors 
.groupingByConcurrent( p -> p.getBuyer())); 


该 流 具 有 下 述 元 素 。 

(1) 采用 productList 对 象 的 parallelStream() 方 法 启动 该 流 ， 这 样 就 创建 了 一 个 并 发 流 。 

(2) 然后 ， 使 用 flatMap () 方 法 将 现 有 的 Product 对 象 流 转换 成 一 个 唯一 的 ProductReview 
对 象 流 。 

(3) 最 后 , 使 用 collect () 方 法 生成 最 后 的 Map。 本 例 用 到 了 由 collectors 类 的 groupingBy- 
Concurrent () 方 法 生成 的 预定 义 收集 器 。 返回 的 收集 器 将 生成 一 个 Map, 其 键 为 购买 者 属性 的 取 值 ， 
而 其 值 为 一 个 ProductReview 对 象 列表 ， 其 中 含有 该 用 户 所 购买 商品 的 信息 。 正 如 该 方法 的 名 称 所 
示 ， 该 转换 将 以 并 发 方式 执行 。 

接 下 来 是 本 例 中 最 重要 的 一 个 流 。 选 定 某 个 客户 购买 的 商品 并 且 生 成 对 该 客户 的 推荐 。 这 是 由 一 
个 流 完 成 的 有 两 个 阶段 的 过 程 。 第 一 个 阶段 ， 获 取 购 买 了 原 客户 所 购买 商品 的 用 户 。 第 二 个 阶段 ， 生 
成 一 个 Map, 其 中 含有 这 些 客户 所 购买 的 商品 , 以 及 这 些 客户 针对 商品 所 做 的 评论 。 该 流 的 代码 如 下 。 

Map<String,List<ProductReview>> recommendedProducts= productsByBuyer 

.get (user) .parallelStream() .map(p -> p 
.getReviews()).flatMap (Collection::stream) 
.map(r -> r.getUser()) .distinct() 

.map (productsByBuyer: :get) 

.flatMap (Collection::stream) 


.Collect (Collectors.groupingByConcurrent 
(Bb.~> pgetTitle()}))? 


在 该 流 中 有 如 下 元 素 。 

(1) 首先 ， 获 取 用 户 所 购买 商品 的 列表 ， 并 且 使 用 parallelstream() 方 法 来 生成 一 个 并 发 流 。 

(2) 然后 ， 使 用 map () 方 法 获取 所 有 有 关 这 些 商 品 的 评论 。 

(3) 此 时 ， 有 了 一 个 List<Review> 流 。 将 该 流转 换 成 一 个 Review 对 和 象 流 。 现 在 ,就 有 了 一 个 
含有 用 户 所 购买 商品 的 全 部 评论 的 流 。 

(4) 然后 ， 将 该 流转 换 成 一 个 string 对 象 流 ， 其 中 含有 提交 这 些 评 论 的 用 户 的 名 称 。 

(5) 然后, 使 用 aistinct () 方 获取 唯一 的 用 户 名 称 。 现 在 就 有 了 一 个 String 对 象 流 ,其 中 包含 
了 那些 与 原 用 户 购买 了 相同 商品 的 用 户 名 称 。 

(6) 然后 ， 使 用 map () 方 法 将 每 个 客户 与 其 已 购 商 品 列表 对 应 起 来 。 

(7) 此 时 ， 就 有 了 一 个 List<ProductReview> 对 象 流 。 使 用 £1atMap () 方 法 将 该 流转 换 成 一 个 
ProductReview 对 象 流 。 

(8) 最 后 ,使 用 collect () 方 法 和 groupingByConcurrent () 收 集 器 生成 一 个 商品 Map。 该 Map 
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的 键 是 商品 名 称 ， 而 其 值 为 ProductReview 对 象 列 表 ， 该 列表 含有 前 面 已 获取 到 的 客户 评论 。 

为 了 完成 该 推荐 算法 ， 还 需要 最 后 一 步 。 对 于 每 个 商品 ， 都 希望 计算 其 在 评论 中 的 平均 分 值 ， 并 
且 按 照 降序 对 该 列表 进行 排序 ， 以 便 将 排 在 前 面 的 商品 放 在 首要 位 置 显 示 。 为 了 进行 这 样 的 转换 ， 要 
采用 一 个 额外 的 流 。 


ConcurrentLinkedDeque<ProductRecommendation> recommendations 
= recommendedProducts.entrySet() .parallelStream() 
.map (entry -> new ProductRecommendation (entry 
.getKey(), entry.getValue() .stream() .mapToInt (p-> 
p.getValue()).average() .getAsDouble())) 
.Sorted() .collect (Collectors.toCollection 
(ConcurrentLinkedDeque: :new) ) ; 


end=new Date(); 
recommendations. forEach(pr -> System.out.println (pr.getTitlel() 
+": "+pr.getValue())); 


System.out .println("Execution Time: "+(end.getTime()-— 
start.getTime())); 


} catch (IOException e) { 
e.printStackTrace(); 
} 
} 
} 


处 理 上 一 步 得 到 的 Map。 对 于 每 个 商品 , 对 其 评论 列表 进行 处 理 , 生成 一 个 ProductRecommend- 
ation 对 象 。 需要 通过 一 个 流 来 计算 每 个 评论 的 平均 值 作为 该 对 象 的 值 ， 这 就 要 使 用 mapToInt () 方 
法 将 ProductReview 对 象 转换 成 一 个 整数 流 , 并 且 使 用 average () 方 法 求 取 字符 串 中 所 有 数值 的 平 
均值 。 

最 后 ， 在 关于 推荐 的 concurrentLinkedDeque 类 中 ， 有 一 个 ProductRecommendation 对 象 
列表 。 使 用 其 他 带 有 sorted() 方 法 的 流 对 该 列表 进行 排序 。 使 用 该 流 将 最 终 列表 输出 到 控制 台 。 


9.3.3 ConcurrentLoaderAccumulator 类 


为 了 实现 本 例 , 使 用 了 concurrentLoagderAccumulator 类 , 它 在 collect () 方 法 中 用 作 Accumulator 
函数 , 将 含有 全 部 待 处 理 文件 路 径 的 Path 对 象 流转 换 为 关于 Product 对 象 的 ConcurrentLinkedDeque 
类 。 该 类 的 源 代 码 如 下 : 


public class ConcurrentLoaderAccumulator implements 
BiConsumer<List<Product>, Path> { 


QOverride 
public void accept (List<Product> list, Path path) { 


Product product=ProductLoader.1load (path); 
list.add (product); 
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上 述 源 代码 实现 了 Biconsumer 接口 。 其 中 accept ( 


过 解释 ) 从 文件 中 加 载 商品 信息 ， 并 且 将 作为 结果 的 Product 对 象 添加 到 以 参数 传递 的 List 类 。 


9.3.4 。 串 行 版 


正如 本 书 的 其 他 例子 一 样 ， 本 例 也 实现 了 一 个 串 行 版 本 ， 以 检验 并 行 流 对 应 用 程序 性 能 的 提升 情 


况 。 为 了 实现 该 串 行 版 本 ， 要 遵循 下 述 步 又 。 
(1) 将 ConcurrentLinkedDeque 数 ] 


据 结构 替换 为 List 或 ArrayList 数据 结构 。 


() 方 法 使 用 ProducLoagder 类 (在 本 章 前 面 做 


(2) 将 parallelStrem() 方 法 更 改 为 stream() 方 法 。 


(3) 将 gropingByConcurrent 


可 以 在 本 书 配套 的 源 代码 中 查看 本 例 的 串 行 版 。 
9.3.5 “对 比 两 个 版 本 


为 了 对 比 推 


荐 系统 的 串 行 版 和 并 发 版 ， 我 们 获取 了 三 


口 A2JOYUS36FLG4Z 
DQ A2JW670Y8U6HHK 
DQ A2VE83MZF98ITY 

我 们 采用 JMH 框架 执行 了 这 些 示 例 ， 
试 的 框架 是 比较 好 的 解决 方案 ， 


间 。 在 两 种 不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 


口 一 台 


计算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 到 


右 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 档 


() 方 法 更 改 为 groupingBy () 方 法 。 


个 用 户 的 推荐 商品 。 


该 框架 允许 在 Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测 
它 直接 用 currentTimeMillis() 方 法 或 者 nanoTime () 方 法 度量 时 


就 有 四 个 并 行 线程 。 


口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 
有 四 个 核 。 
用 毫秒 表示 的 结果 如 下 。 
A2JOYUS36FLG4Z A2JW67OY8U6HHK A2VE83MZF98ITY 

Intel 架构 
串 行 版 1639.685 1542.804 1595.341 
并 发 版 1030.635 1061.247 1054.213 
AMD 架构 
捉 行 版 3361.956 3412.680 3351.890 
并 发 版 1866.653 1871.919 1999.916 

可 以 得 出 如 下 结论 。 

口 针对 这 三 个 用 户 得 到 的 结果 非常 相似 。 


口 并 发 流 的 执行 时 间 总 是 比 顺序 流 的 执行 时 间 更 优 。 


如 果 对 比 并 发 版 本 和 串 行 版 本 ， 例 如 ， 对 第 二 个 用 户 的 结果 


使 用 加 速 比 ， 可 得 到 如 下 结 
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9.4 第 三 个 例子 : 社 


社交 网 络 正在 改变 着 社会 ， 
及 Instagram 都 拥有 数 百 万 用 户 


和 3412.680 _ 


S serial ”一 二 1.82 
ee 人 1 87 1 .9 19 

NE 
We 1061.247 


concurrent 


交 网 络 中 的 共同 联系 人 


也 改变 着 人 们 相互 之 间 的 联系 方式 。Facebook 、Linkedin 、Twitter 以 
， 他 们 使 用 这 些 网 络 与 朋友 分 享 生活 中 的 每 个 瞬间 ， 建 立新 的 职业 联 


系 ， 提 升 专业 品牌 ， 与 新 人 会 见 ， 或 者 只 是 了 解 一 下 世界 的 最 新 发 展 趋势 。 


可 以 将 社交 网 络 视 为 一 个 图 ， 


其 中 用 户 是 节点 , 而 用 户 之 间 的 关系 是 边 。 和 图 一 样 , 在 像 Facebook 


这 样 的 社交 网 络 中 , 用 户 之 间 的 关系 既 可 以 是 无 向 的 , 也 可 以 是 双向 的 。 如 果 用 户 A 与 用 户 B 相 关联， 


那么 用 户 B 也 就 与 用 户 A 相关 联 。 与 之 相反 ， 在 像 Twitter 这 样 的 社交 网 络 中 ,用户 之 间 的 关系 是 有 


向 的 。 在 这 种 情况 下， 我 们 称 用 户 A 关注 用 户 B， 但 是 反 过 来 就 不 一 定 为 真 了 。 
本 节 将 实现 一 个 算法 来 计算 社交 网 络 中 每 一 对 用 户 之 间 的 共同 联系 人 , 且 该 社交 网 络 中 用 户 之 间 
为 双向 关系 。 我 们 将 实现 Steve Krenzel 在 “MapReduce: Finding Friends” 中 讲述 的 算法 。 该 算法 的 主 


要 步骤 如 下 。 


口 数据 源 是 一 个 存放 有 每 个 用 户 及 其 联系 人 的 文件 。 


A=-ByCiD; 
BA 
C=AyBy Dy Ey 
DA BE 
b=-B,C Ds 


口 这 就 意味 着 用 户 A 的 联系 人 是 用 户 B、C 和 D。 考 虑 到 他 们 之 间 的 关系 是 双向 的 ， 因 此 如 果 B 
是 A 的 联系 人 , 那么 A 也 是 B 的 联系 人 ， 而 且 在 文件 中 这 两 个 关系 都 要 描述 。 这 样 ， 我 们 的 


元 素 就 有 下 述 两 个 部 分 。 
昌 一 个 用 户 标 识 符 。 
里 该 用 户 的 联系 人 列表 。 


口 下 一 步 ， 生 成 一 个 元 素 集合 ， 其 中 每 个 元 素 都 有 三 个 部 分 。 这 三 个 部 分 如 下 所 示 。 


和 @ 一 个 用 户 标 识 符 。 
里 一 个 朋友 的 用 户 标识 。 
里 该 用 户 的 联系 人 列表 。 


口 因此 ， 对 于 用 户 A， 将 生成 下 述 元 素 。 


A=B=-Brt 
A-G-B.rl 
A=DiBCrl 


口 对 所 有 元 素 都 执行 相同 的 处 理 过 程 。 我 们 将 存储 两 个 用 户 标识 符 并 按照 字母 表 顺 序 排序 。 这 


样 ， 对 用 户 B， 就 可 以 9 


E 成 下 述 元 素 。 
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六 二 并 > 六 CD 
B=C=-AiC,D,E 
二 
B=-B=A,C/DyE 


口 一 旦 生成 所 有 的 新 元 素 后 ， 就 按照 两 个 用 户 标识 符 对 它们 进行 分 组 。 例 如 ， 对 于 元 组 A-B， 
将 生成 下 面 的 分 组 。 
A-B- (B,C,D), (A,C,D,E) 
口 最 后 ， 计 算 两 个 列表 的 交集 。 得 到 的 结果 列表 就 是 两 个 用 户 之 间 的 共同 联系 人 。 例 如 ， 用 户 
A 和 B 的 共同 联系 人 是 C 和 D。 
为 了 测试 该 算法 ,使 用 了 两 个 数据 外 
口 前 面 给 出 的 测试 样 例 。 
口 社交 圈 : 可 通过 网 址 https://snap.stanford.edu/data/egonets-Facebook.html 下 载 Facebook 数据 


Cy 
O 


集 ， 其 中 含有 4039 个 Facebook 用 户 的 联系 人 信息 。 我 们 已 经 将 原始 数据 转换 成 为 本 例 中 要 用 
到 的 数据 格式 。 
9.4.1 基本 类 


与 本 书 中 的 其 他 例子 一 样 ， 我 们 也 实现 了 本 例 的 串 行 版 本 和 并 发 版 本 ， 以 此 来 验证 并 发 流 对 应 用 
程序 性 能 的 改进 情况 。 这 两 个 版 本 的 程序 有 一 些 共 同 的 类 。 

1. Person 类 

Person 类 存储 了 关于 社交 网 络 中 每 个 人 的 信息 ， 它 包括 如 下 要 素 。 
口 它 的 用 户 也 ， 存 放 在 ID 属性 中 。 
口 该 用 户 的 联系 人 列表 ， 以 一 个 String 对 象 列 表 的 形式 存放 在 联系 人 属性 中 。 

该 类 声明 了 上 述 两 个 属性 ， 以 及 与 之 对 应 的 getxxx() 方 法 和 setxxx() 方 法 。 此 外 ， 还 需要 一 
个 构造 函数 以 创建 该 联系 人 列表 , 还 有 一 个 名 为 adadcontact () 的 方法 , 该 方法 用 于 将 单个 联系 人 添 
加 到 联系 人 列表 。 该 类 的 源码 非常 简单 ， 在 此 不 再 给 出 。 

2. PersonPair 类 

PersonpPair 类 扩展 了 Person 类 ， 增 加 了 存放 第 二 个 用 户 标 识 符 的 属性 。 将 该 属性 称 作 otherId。 
该 类 声明 了 该 属性 以 及 相应 的 getXXX () 方 法 和 setxxx() 方 法 。 还 需要 一 个 名 为 getFulliIa() 的 方 
法 ， 该 方法 返回 一 个 含有 两 个 用 户 标 识 符 的 字符 串 ， 它 们 之 间 采 用 字符 , 分隔。 该 类 的 源 代 码 非常 简 
单 ， 因 此 这 里 不 再 给 出 。 

3. DataLoader 类 

DataLoader 类 加 载 带 有 用 户 信息 及 其 联系 人 的 文件 ， 并 且 将 其 转换 成 一 个 Person 对象 列表 。 
该 类 仅 实 现 了 一 个 名 为 10ad() 的 静态 方法 ， 该 方法 接收 以 string 对 象 出 现 的 文件 路 径 作为 参数 ， 
并 且 返 回 Person 对 象 列表 。 

如 前 所 示 ， 该 文件 具有 如 下 格式 。 


User-C1,C2,C3...CN 
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用 户 联 系 人 的 标识 符 。 


其 中 ，User 是 用 户 的 标识 符 ， 而 C1、c2、C3. . .CN 都 是 该 
该 类 的 源 代码 非常 简单 ， 在 此 不 再 给 出 。 


9.4.2 ”并 发 版 本 
首先 ， 分 析 一 下 该 算法 的 并 发 版 本 。 


1. commonPersonMapper 类 


CommonPersonMapper 类 是 稍 后 将 要 用 到 的 一 个 辅助 类 。 它 将 生成 所 有 的 PersonPair 对 象 ， 
这 些 对 象 可 以 从 Person 对 象 生成 。 该 类 实现 了 Function 接口 ， 而 该 接口 采用 Person 类 和 


List<PersonPair> 类 参数 化 。 
该 类 实现 了 Fuction 接口 中 定义 的 apply () 方 法 ,首先 ,初始 化 将 要 返回 的 List<PersonPair> 
对 象 ， 并 且 对 联系 人 列表 进行 排序 。 


public class CommonPersonMapper implements Function<Person, 
List<PersonPair>> { 


QOverride 
public List<PersonPair> apply (Person person) { 


List<PersonPair> ret=new ArrayList<>(); 


List<String> contacts=person.getContacts(); 
Collections.sort (contacts); 


然后 ,处 理 整 个 联系 人 列表 ， 为 每 个 联系 人 创建 PersonPair 对 象 。 如 前 所 述 , 按照 字母 表 顺 序 
存放 两 个 联系 人 。 按 字母 表 排 序 靠 前 的 存放 在 ID 字段 中 ， 而 另 一 个 则 存放 在 otherIa 字段 中 。 


for (String "Contact, 2 "contacts) 式 
PersonPair personExt=new PersonpPair(); 
if (Person.getId() .compareTo (contact) < 
personExt.setId(person.getId()); 
personExt.setOtherid(contact); 

} else { 
personExt.setId(contact); 
personExt.setOtherid(person.get1d()); 


} 
最 后 ， 将 联系 人 列表 添加 到 新 对 象 ， 并 且 将 该 对 象 添 加 到 结果 列表 。 处 理 完 所 有 的 联系 人 后 ， 返 


回 结果 列表 。 
personExt.setContacts (contacts); 
ret.add (personExt); 

J} 
return ret; 
} 
} 


O07 开 


2. ConcurrentSocialNetwork 类 
ConcurrentSocialNetwork 类 是 本 例 的 主 类 。 它 仅仅 实现 了 一 个 名 为 pidirectionalCommon- 


Contacts () 的 静态 方法 。 该 方法 接收 社交 网 络 上 的 人 员 列 表 ( 含有 联系 人 ), 并 且 返 回 一 个 PersonPair 
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对 象 列表 ， 这 些 PersonPair 对 象 中 含有 每 一 对 互 为 联系 人 的 用 户 之 间 的 共同 联系 人 。 

从 内 部 来 看 ， 我 们 使 用 不 同 的 流 来 实现 自己 的 算法 。 我 们 使 用 第 一 个 流 将 Person 对 象 的 输入 列 
表 转 换 成 一 个 Map。 该 Map 的 键 为 每 一 对 用 户 的 两 个 标识 符 ， 而 其 值 为 一 个 含有 两 个 用 户 联系 人 的 
PersonPair 对 象 列 表 。 这 样 ， 这 些 列 表 总 是 有 两 个 元 素 。 代 码 如 下 : 


public class ConcurrentSocialNetwork { 


public static List<PersonPair> bidirectionalCommonContacts 
(List<Person> people) { Map<String, 
List<PersonPair>> group = people.parallelStream() 
.map (new CommonPersonMapper () ) 
.flatMap (Collection::stream) 
.Collect (Collectors.groupingByConcurrent 
(PersonPair: :getFull1d)); 
该 流 有 如 下 组 件 。 
(1) 使 用 输入 列表 的 parallelstream() 方 法 创建 流 。 
(2) 然后 , 使 用 map () 方 法 和 前 面 提 到 的 commonPersonMapper 类 将 每 个 Person 对 象 都 转换 到 
一 个 PersonPair 对 象 列表 中 ， 这 其 中 考虑 到 了 该 对 象 的 所 有 可 能 结果 。 
(3) 此 时 ， 有 了 一 个 List<PersonPair> 对 象 流 。 我 们 使 用 flatMap () 方 法 将 该 流转 换 成 一 个 
PersonPair 对 象 流 。 
(4) 最 后 ， 使 用 collect () 方 法 生成 该 Map ， 这 要 用 到 groupingByConcurrent () 方 法 返回 的 
收集 器 ， 而 采用 getFullId() 方 法 返回 的 值 作为 该 Map 的 键 。 
然后 ,使 用 collectors 类 的 of () 方 法 创建 一 个 新 的 收集 器 。 该 收集 器 将 接收 一 个 字符 串 
collection 作为 输入 ， 使 用 AtomicReference<Collection<String>> 接 口 作 为 中 间 数 据 结构 ， 
并 且 返 回 一 个 字符 串 collection 作为 返回 类 型 。 


Collector<Collection<String>, AtomicReference<Collection<String>>, 
Collection<String>> intersecting = Collector.of(() -> 
new AtomicReference<>(null), (acc, list) -> { 

(aGG, Tist) =S 4{ 
if (acc.get() == null) { 
acc.updateAndGet (value -> new ConcurrentLinkedQueue<> (list)); 


} else { 
acc.get () .retainAll (list); 
} 
= Ko el {le 区 
if (acc1.get() == null) return acc2; 
if (acc2.get () == null) 
return accl; 
accl.get () .retainAll (acc2.get ()); 
return accl; 
}, (acc) -> acc.get() == null ? Collections.emptySet() 
acc.get(), Collector.Characteristics.CONCURRENT, 
Collector.Characteristics.UNORDERED); 


of () 方 法 的 第 一 个 参数 是 Supplier 函数 。 需要 创建 一 个 中 间 数 据 结 构 时 ,总 是 要 调用 该 Supplier。 
串 行 流 中 ， 该 方法 仅 被 调用 一 次 ， 但 是 在 并 发 流 中 ， 每 个 线程 都 会 调用 该 方法 。 
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() -> new AtomicReference<>(null), 


在 我 们 的 例子 中 , 会 直接 创建 一 个 新 的 AtomicReference 来 存放 Collection<String> 对 象 。 
of () 方 法 的 第 二 个 参数 是 Accumulator 函数 。 该 函数 接收 中 间 数 据 结 构 和 一 个 输入 值 作为 参数 。 


(acc, list) -> { 


if (ace .ett() = LLY 
acc.updateAndGet (value -> new ConcurrentLinkedQueue<> (list)); 
} else { 


acc.get () .retainAll (list); 
} 
} 


在 我 们 的 例子 中 ,acc 参数 是 AtomicReference, 而 1ist 参数 是 ConcurrentLinkedDeque。 
如 果 acc 参数 存储 的 是 空 值 ， 那 么 使 用 AtomicReference 的 updateAngdGet () 方 法 。 该 方法 更 新 
当前 值 并 且 返 回 新 值 。 如 果 AtomicReference 为 null1， 本 例 创 建 一 个 含有 该 列表 元 素 的 新 
ConcurrentLinkedDeque。 如 果 AtomicReference 不 为 空 ， 那 么 使 用 retainA1ll () 方 法 添加 该 
列表 的 所 有 元 素 。 

of () 方 法 的 第 三 个 参数 是 Combiner 函数 。 该 函数 只 在 并 行 流 中 调用 ， 它 接收 两 个 中 间 数 据 结 构 
作为 参数 ， 并 且 仪 生成 一 个 数据 结构 。 


(GGL REG) ' = 


if (acc1.get() == null) 
return acc2; 
if (acc2.get() == null) 


return accil; 
accl .get () .retainAll (acc2 .get ()); 
return accil; 


二 
在 我 们 的 例子 中 ,如 果 其 中 一 个 参数 为 aul1, 则 返回 另 一 个 数据 结构 。 和 否则 , 使 用 accl 参数 的 
retainAll () 方 法 并 且 返 回 结果 。 

of () 方 法 的 第 四 个 参数 是 Finisher 函数 。 该 函数 将 最 后 的 中 间 数 据 结构 转换 成 我 们 希望 返回 的 数 
据 结构 。 在 我 们 的 例子 中 ， 中 间 数 据 结 构 和 最 终 数据 结构 相同 ， 因 此 不 需要 转换 。 

(acc) -> acc.get() == null ? Collections.emptySet() : acc.get (), 

最 后 ， 使 用 最 后 一 个 参数 指明 该 收集 器 是 并 发 的 。 这 就 意味 着 ， 同 一 个 结果 容器 可 以 从 多 个 不 同 
线程 并 发 调用 该 Accumulator 函数 ; 该 收集 器 是 无 序 的 , 这 就 意味 着 , 该 操作 不 会 保留 元 素 的 原始 顺序 。 

定义 了 收集 器 后 ， 还 要 将 第 一 个 流 生 成 的 Map 转换 成 一 个 PersonPait 对 象 列表 ， 其 中 含有 每 
一 对 用 户 的 共同 联系 人 。 我 们 采用 下 述 代码 : 


List<PersonPair> peopleCommonContacts = group 
.entrySet () .parallelStream() .map((entry) -> { 

Collection<String> commonContacts = entry 

.getValue() .parallelStream() .map(p -> p 

.getContacts()).collect (intersecting); 
PersonPair person = new PersonPair () ; 
person.setIid(entry.getKey() .split(",")[0]); 
person.setOtherIid(entry.getKey().split (",")[1]); 


222 


第 9 章 使 用 并 行 流 处 理 大 规模 数据 集 : MapCollect 模型 


} 


} 


person.setContacts (new ArrayList<String> (commonContacts)); 
return person; 
}) .collect (Collectors.toList()); 


return peopleCommonContacts; 


使 用 entyset () 方 法 处 理 该 Map 的 所 有 元 素 。 创 建 parallelStream() 方 法 来 处 理 所 有 的 


中 含有 另 一 个 用 户 的 联系 人 。 
我 们 为 该 列表 创建 一 个 流 来 生成 两 个 用 户 的 共同 联系 人 ， 其 中 含有 如 下 元 素 。 
(1) 使 用 该 列表 的 parallelstream() 方 法 创建 该 流 。 


(2) 使 


(3) 最 后 ， 使 用 收集 器 生成 含有 共同 联系 人 的 ConcurrentLinkedDeque。 


最 后 , 创建 一 个 


对 象 添 加 到 结果 列表 。 该 Map 中 的 所 有 元 素 人 处 理 完毕 后 ， 可 以 返回 该 结果 列表 。 
3. concurrentMain 类 


ConcurrentMain 类 实现 了 main() 方 法 ， 用 于 测试 算法 。 如 前 所 述 ,使 用 下 面 两 个 数据 集 测试 


该 算法 。 


口 一 个 非常 简单 的 用 于 测试 该 算法 正确 性 的 数据 集 。 
口 基于 Facebook 真实 数据 的 数据 集 。 


名 


该 类 的 源 代码 如 下 : 


public class ConcurrentMain { 


public static void main(String[] args) { 


Date start, end; 

System.out .println("Concurrent Main Bidirectional - Test"); 

List<Person> people=DataLoader.load("data", "test.txt"); 

start=new Date(); 

List<PersonPair> peopleCommonContacts= ConcurrentSocialNetwork 
.bidirectionalCommonContacts (people); 

end=new Date(); 

peopleCommonContacts.forEach(p -> System.out.println 


(p.getFullId()+": "+getContacts(p.getContacts()))); 


System.out .println("Execution Time: "+(end.getTime()-— 
start.getTime())); 

System.out .println("Concurrent Main Bidirectional - 
Facebook"); 
people=DataLoader.load("data","facebook_ contacts.txt"); 
start=new Date(); 

peopleCommonContacts= ConcurrentSocialNetwork 


用 map ( ) 方法 来 将 每 个 PersonPair () 对 象 替换 为 存放 在 该 对 象 中 的 联系 人 列表 。 


新 的 PersonPair 对 象 , 其 中 含有 两 个 用 户 的 标识 符 及 其 共同 联系 人 列 


人 


下 


Entry 对 象 ， 然 后 使 用 map () 方 法 将 每 个 PersonPair 对 象 列表 转换 为 一 个 含有 共同 联系 人 的 唯一 
Personpair 对 象 。 

对 每 条 记录 来 说 , 其 键 是 一 对 
对 象 组 成 的 列表 。 第 一 个 Person 


用 户 的 标识 符 ( 以 逗号 作为 分 隔 符 ), 而 其 值 是 由 两 个 PersonPair 
Pair 对 象 中 含有 一 个 用 户 的 联系 人 ， 而 另 一 个 PersonPair 对 象 


[ey 将 该 
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.bidirectionalCommonContacts (people); 
end=new Date(); 
peopleCommonContacts.forEach(p -> System.out.println 
(p.getFullId()+": "+getContacts(p.getContacts()))); 
System.out .println("Execution Time: "+(end.getTime()-— 
start.getTime())); 


} 


private static String formatContacts (List<String> contacts) { 
StringBuffer buffer=new StringBuffer(); 
for (String contact: contacts) 1{ 
buffer.append (contact+","); 
} 


return buffer.toString(); 


} 


9.4.3” 串 行 版 本 


和 本 书 的 其 他 例子 一 样 ， 我 们 也 为 本 例 实现 了 串 行 版 。 该 版 本 相当 于 对 并 发 版 做 如 下 更 改 。 
口 用 stream() 方 法 替换 parallelstream() 方 法 。 
口 用 ArravList 数据 结构 替换 ConcurrentLinkedD qu 数据 结构 。 
口 用 groupingBy () 方 法 蔡 换 groupingByConcurrent () 方 法 。 
口 不 使 用 of () 方 法 中 最 后 的 参数 。 


9.4.4 ”对 比 两 个 版 本 


我 们 采用 JMH 框架 执行 这 些 示例 ， 该 框架 允许 在 Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测试 
的 框架 是 比较 好 的 解决 方案 , 它 直接 用 currentTimeMillis () 方 法 或 者 nanoTime () 方 法 度量 时 间 。 
在 两 种 不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 
口 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 
器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 
口 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操作 系统 和 8GB 的 RAM。 该 处 理 器 

有 四 个 核 。 

结果 如 下 (单位: 毫秒 )。 


示例 数据 集 Facebook 
Intel 架构 
串 行 版 0.562 3193.83 
并 发 版 2.037 1778.239 
AMD 架构 
串 行 版 3.325 8953.173 
并 发 版 2.976 3447.576 
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可 以 得 出 如 下 结论 。 
口 对 于 示例 数据 集 ， 在 Intel 架构 上 串 行 版 的 执行 时 间 结 果 更 好 ， 而 在 AMD 架构 上 也 有 类 似 表 
现 。 原 因 在 于 示例 数据 集中 的 元 素 比较 少 。 

口 对 于 Facebook 数据 集 ， 并 发 版 在 两 种 架构 上 的 执行 时 间 结 果 均 更 好 。 

针对 Facebook 数据 集 比较 并 发 版 和 串 行 版 ， 就 会 得 到 如 下 结果 。 


a 2 
和 snident 3447.576 | 
ye 193. 

Si 一 serial “一 3 93 83 =1.80 
7 1778.239 


concurrent 


9.5 ”小结 


本 章 使 用 streanm 框架 提供 的 多 个 版 本 的 collect () 方 法 对 流 的 元 素 进 行 转换 和 分 组 。 本 章 和 第 
8 章 介 绍 了 如 何 使 用 完整 的 流 API。 
基本 上 ，collect () 方 法 需要 一 个 收集 器 来 处 理 流 的 数据 并 且 生 成 一 个 数据 结构 ,该 数据 结构 则 
由 形成 该 流 的 一 个 聚合 操作 集 返 回 。 一 个 收集 器 可 以 处 理 三 种 不 同 的 数据 结构 ,包括 输入 元 素 的 数据 
结构 、 处 理 输 入 元 素 时 使 用 的 中 间 数 据 结构 ， 以 及 返回 的 最 终 数据 结构 。 

本 章 使 用 了 collect () 方 法 的 不 同 版 本 实现 了 一 个 搜索 工具 〈 它 必须 在 不 采用 倒 排 索引 的 前 提 
下 在 文件 集合 中 查找 查询 中 的 单词 )、 一 个 推荐 系统 ， 以 及 一 个 用 于 在 社交 网 络 中 计算 两 个 用 户 之 间 
共同 联系 人 的 工具 。 

下 一 章 将 深入 研究 反应 流 编程 ， 这 是 Java 9 中 引入 的 一 种 新 特性 。 


BD 


异步 流 处 理 : 反应 流 


反应 流 为 带 有 非 阻 塞 回 压 〈back pressure ) 的 异步 流 处 理 定义 了 标准 。 这 类 系统 最 大 的 问题 是 资 


源 消耗 。 快 速 的 生产 者 会 使 较 慢 的 消费 者 超 负荷 。 这 些 组 件 之 间 的 数据 队列 规模 可 能 过 度 增加 ， 从 而 
影响 整个 系统 的 行为 。 回 压 机 制 确保 了 在 生产 者 和 消费 者 之 间 进 行 协调 的 队列 含有 限定 数目 的 元 素 。 


反应 流 定义 了 描述 必要 操作 和 实体 所 需 的 接口 .方法 和 协议 的 最 小 集合 。 它 们 基于 以 下 三 个 要 素 。 


口 信息 的 发 布 者 。 
口 一 个 或 多 个 信息 订阅 者 。 
口 发 布 者 和 消费 者 之 间 的 订阅 关系 。 


执行 。 


如 前 所 述 ， 所 有 这 些 通信 都 是 异步 的 ， 


3 


反应 流 规范 根据 以 下 规则 明确 了 这 些 类 应 该 如 何 交 互 。 

口 发 布 者 将 添加 那些 希望 得 到 通知 的 订阅 者 。 

口 订阅 者 被 发 布 者 添加 时 会 收 到 通知 。 

口 订阅 者 以 异步 方式 请 求 来 自发 布 者 的 一 个 或 多 个 元 素 ， 也 就 是 说 ,订阅 者 请 求 元 素 并 继续 其 


口 发 布 者 有 一 个 要 发 布 的 元 素 时 ,会 将 其 发 送 给 请 求 元 素 的 所 有 订阅 者 。 


因此 可 以 充分 利用 多 核 处 理 带 的 全 部 性 能 。 


Java 9 包含 了 三 个 接口 ， 即 Flow.Publisher、Flow.Subscriber 和 Flow.Subscription， 
以 及 一 个 实用 工具 类 ，submissionPublisher 类 。 它们 可 支持 实现 反应 流 应 用 程序 。 本 章 将 介绍 如 
何 使 用 这 些 元 素 实 现 基 本 的 反应 流 应 用 程序 。 


口 Java 反应 流 简 介 。 


在 本 章 中 ， 你 将 通过 以 下 主题 学 习 如 何 使 用 反应 流 。 10 


口 第 二 个 例子 : 新 闻 系 统 。 


10.1 Java 反应 流 简介 


口 第 一 个 例子 : 面向 事件 通知 的 集中 式 系统 。 


本 章 开头 介绍 了 反应 流 的 定义 、 标 准 构 成 元 素 以 及 这 些 元 素 在 Java 中 的 实现 方式 。 


口 Flow.Publisher 接口 : 该 接口 描述 了 条 上 日 的 生产 者 。 
口 Flow.Subscriber 接口 : 该 接口 描述 了 条 日 的 使 用 者 ( 即 消费 者 ) 。 
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口 Flow.Subscription 接口 : 该 接口 描述 了 生产 者 与 消 
以 管理 生产 者 和 消费 者 之 间 的 条 目 交 换 。 
除了 这 三 个 接口 之 外 ， 还 有 实现 Flow.Pu 


下 


10.1.1 
如 前 所 述 ， 
口 subscribe() : 该 方法 接收 Flow.Subscriber 接 
加 到 其 内 部 订阅 者 列表 。 该 方法 并 不 返回 任何 结 引 
口 提供 的 方法 向 订阅 者 发 送 条 目 、 错 误 信 息 和 订阅 对 象 。 


用 到 了 Flow.Su 
以 文 持 消费 者 订 
Flow.Subscriber 接 


口 的 类 。 


| 阅 ， 也 可 以 将 条 


掉 详 细 了 解 一 下 这 些 类 和 接口 所 提供 的 方法 。 


FLow.Publisher 接口 


目 发 送 给 这 些 消费 者 ， 


该 接口 描述 了 条 


接 


目的 生产 者 。 它 只 提供 


个 方法 。 


口 的 一 个 实现 作为 参数 ， 并 


10.1.2 Flow.Subscriber 接口 


如 前 所 述 ， 该 接 
口 onSubscribe() : 该 方法 由 发 布 者 调用 ， 
Flow.Subscription 对 象 ， 该 对 象 管理 发 布 者 和 订阅 者 之 间 的 通 
ext () : 当 发 布 者 想 
须 处 理 该 条 上 日 。 该 方法 并 不 返 
口 onError () : 如 果 出 现 了 一 个 不 可 恢复 的 错误 ， 而 且 没 有 调用 


口 on 


口 描述 了 条 


目的 消费 者 。 它 提供 了 下 述 四 个 方法 。 


把 新 条 目 发 送 给 订 


回 任何 结果 。 


者 将 调 


口 onCcomplete() : 不 再 发 送 从 


2 二 


引水 o 


10.1.3 ”Flow.Subscription 接口 


如 前 所 述 ， 该 对 象 描述 了 发 布 者 与 订阅 者 之 间 的 通信 。 它 提供 了 两 个 方法 ,订阅 者 可 以 通过 这 些 
方法 告诉 发 布 者 它们 的 通信 将 如 何 进 行 。 


口 cancel () : 订阅 者 调 
口 request () : 订阅 者 调 


全 
Bo 


费 者 之 间 的 连接 。 实 现 该 接 


其 他 的 订阅 者 方法 ， 
用 该 方法 。 该 方法 接收 Throwable 对 象 作为 参数 ， 其 中 含有 已 发 生 的 错误 。 
E 何 条 目 时 ， 发 布 者 将 调用 该 方法 。 该 方法 没有 参数 ， 


口 的 类 可 


blisher 接口 的 submissionPublisher 类 。 该 类 还 
bscription 接口 的 一 个 实现 。 该 类 实现 了 Flow.Publisher 接口 的 方法 ， 进 而 可 
因此 我 们 只 需要 实现 一 个 或 多 个 实现 


晶 将 该 订阅 者 添 
。 从 内 部 来 看 ， 它 使 用 Flow. Supbscriber 


用 于 完成 订阅 者 的 订阅 过 程 。 它 向 订阅 者 发 送 了 


阅 者 时 ， 会 调用 该 方法 。 在 该 方法 中 ， 订 阅 者 必 


那么 发 布 


也 不 返回 


用 该 方法 告诉 发 布 者 它 不 再 


作为 参数 。 


用 该 方法 来 告诉 发 布 者 它 需 


10.1.4 submissionPublisher 类 


如 前 所 述 , 这 个 类 


接口 ， 并 且 提 供 向 消费 者 发 送 条 


目的 方法 ， 这 些 方 法 用 于 了 解 消 


需要 任何 条 目 了 。 


更 多 的 条 目 。 它 将 订阅 者 想 要 的 条 目 数 


H Java9API 提供 , 实现 了 Flow.Publisher 接口 。 它 还 使 用 Flow. Subscription 
费 者 数量 、 发 布 者 和 消费 者 之 间 的 订 
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阅 关系 ， 以 及 关闭 它们 之 间 的 通信 。 下 面 给 出 了 该 类 比较 重要 的 方法 。 


口 subscribe(): 该 方法 由 Flow.Publisher 接口 提供 
对 象 。 


任何 订阅 者 都 不 可 用 时 ， 进 行 不 间断 阻塞 。 


估计 。 


， 用 于 向 发 布 者 订阅 一 个 Flow.Subscriber 


口 offer () : 该 方法 以 异步 方式 调用 其 onNext () 方 法 ， 向 每 个 订阅 者 发 布 一 个 条 目 。 
口 submit () : 该 方法 以 异步 方式 调用 其 onNext () 方 法 ， 向 每 个 订阅 者 发 布 一 个 条 目 。 资 源 对 


D estimateMaximumLag() : 该 方法 对 发 布 者 已 生成 但 尚未 被 已 订阅 的 订阅 者 使 用 的 条 目 进行 


口 estimateMinimumDemand () : 该 方法 对 消费 者 已 请 求 但 是 发 布 者 尚未 生成 的 条 目 数 进行 估计 。 


口 close () : 该 方法 调用 当前 发 布 者 的 所 有 订阅 者 的 


口 getMaxBuffercapacity(): 该 方法 返回 每 个 订阅 者 的 最 大 缓冲 区 。 
口 getNumberOfSubscribers(): 该 方法 返回 订阅 者 的 数量 。 
口 hasSubscribers(): 该 方法 返回 一 个 布尔 值 ， 该 值 用 于 指示 发 布 者 是 否 有 订阅 者 。 


onComplete() 方 法 。 


口 isclosed(): 该 方法 返回 一 个 布尔 值 ， 用 于 指示 当前 发 布 者 是 否 已 关闭 。 


10.2 第 一 个 例子 : 面向 事件 通知 的 集中 式 系统 
该 示例 将 实现 一 个 系统 , 把 来 自 事件 生成 器 的 条 目 发 送 给 事件 的 消费 者 。 我 们 将 使 用 submission- 


Publisher 类 实现 事件 的 生产 者 和 消费 者 之 间 的 通信 。 


10.2.1 Event 类 


该 类 存储 了 每 个 条 目的 信息 。 每 个 条 目 包含 了 三 个 属性 


口 msg 属性 ， 用 于 在 Event 对 象 中 存储 消息 。 


口 date 属性 ， 用 于 存储 Event 生成 的 日 期 。 


口 source 属性 ， 用 于 存储 生成 Event 对 象 的 类 的 名 称 。 


必须 将 这 三 个 属性 声明 为 private， 并 且 在 该 类 中 包含 相应 的 get () 方 法 和 set () 方 法 。 


10.2.2 Producer 类 


我 们 将 使 用 该 类 实现 生成 事件 的 任务 ,这 些 任务 将 通过 
者 。 该 类 实现 了 Runnable 接口 ， 并 且 存 储 了 两 个 属性 。 
口 publisher 属性 : 该 明 性 存储 submissionPubli 
口 name 属性 : 该 属性 存储 了 生产 者 的 名 称 。 
使 用 该 类 的 构造 函数 初始 化 这 两 个 属性 。 


public class Producer implements Runnable { 


SubmissionPublisher 对 象 发 送 给 消费 


sher 对 象 ， 将 事件 发 送 给 消费 者 。 


private SubmissionPublisher<Event> publisher; 
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private String name; 


public Producer (SubmissionPublisher<Event> publisher, String name) { 
this.publisher = publisher; 
this.name = name; 


} 
然后 ， 实 现 run () 方 法 。 在 该 方法 中 ， 生 成 10 个 事件 。 在 一 个 事件 和 下 一 事件 之 间 ， 随 机 等 待 
一 个 随机 秒 数 ( 0 到 10 之 间 )。 该 方法 的 源 代码 如 下 : 


QOverride 
public void run() { 


Random random = new Random(); 


for (int i=0 ; i < 10; i++) { 
Event event = new Event(); 
event.setMsg ("Event number "+i); 
event.setSource(this.name); 
event .SetDate (new Date()); 


publisher.submit (event); 
int number = random.nextInt (10); 


try { 
TimeUnit.SECONDS.sleep (number); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


10.2.3 Consumer 类 


现在 ,在 consumer 类 中 实现 事件 的 消费 者 。 这 个 类 实现 了 采用 Event 类 参数 化 的 Flow. 
Subscriber 接口 ， 因 此 必须 实现 该 接口 提供 的 四 种 方法 。 
首先 ， 声 明 两 个 属性 。 
口 name 属性 ， 用 于 存储 消费 者 的 名 称 。 
口 subscription 属性 ， 用 于 存储 Flow.Subscription 实例 ， 该 实例 负责 管理 消费 者 与 生产 
者 之 间 的 通信 。 
使 用 该 类 的 构造 函数 初始 化 name 属性 ， 如 以 下 代码 片段 所 示 : 


public class Consumer implements Subscriber<Event> { 


T 


private String name; 
private Subscription subscription; 


public Consumer (String name) { 
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this.name = name; 


} 


现在 , 实现 Flow.Subscriber 接口 的 四 种 方法 。onComplete() 方 法 和 onError () 方 法 只 将 信 
息 显 示 到 控制 台 。 


QOverride 
public void onComplete() { 
this.showMessage ("No more events"); 


} 


QOverride 

public void onError (Throwable error) { 
this.showMessage ("An error has ocurred"); 
error.printStackTrace(); 


} 
当 消 费 者 希望 订阅 其 通知 时 ，subpbmissionPublisher 类 将 调用 onsubscripe() 方 法 ,作为 参 
数 传递 的 subscription 对 象 将 存放 在 subscription 属性 中 , 然后 我 们 使 用 request () 方 法 向 发 
布 者 请 求 第 一 条 消息 。 最 后 ， 在 控制 台 输 出 消息 。 
QOverride 
public void onSubscribe(Subscription subscription) { 
this.subscription=subscription; 
this.subscription.request (1); 


this.showMessage ("Subscription OK"); 


} 


最 后 ， 对 于 每 个 事件 ，submi ssionPublisher 类 都 将 调用 onNext () 方 法 。 我 们 在 控制 台中 显 
示 该 事件 的 信息 ， 使 用 request () 方 法 请 求 下 一 个 事件 ， 并 且 调 用 辅助 方法 proccesEvent ()。 


QOverride 
public void onNext (Event event) { 
this.showMessage("An event has arrived: "+event.getSource()+": 
"+tevent .getDate()+": "+event.getMsg()); 
this.subscription.request (1); 


processEvent (event); 


} 
使 用 processEvent () 方 法 模拟 消费 者 处 理事 件 的 时 间 。 随 机 等 待 0 到 3 秒 以 实现 这 一 行为 。 10 


private void processEvent (Event event) { 
Random random = new Random(); 


int number = random.nextInt (3); 


tye 
TimeUnit.SECONDS.sleep (number); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 
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最 后 ,必须 实现 上 一 个 方法 中 使 用 的 辅助 方法 showMessage()。 它 显示 了 参数 中 字符 串 的 内 容 ， 
! 含 有 执行 消费 者 的 线程 的 名 称 ， 以 及 消费 者 的 名 称 。 


private void showMessage (String txt) { 
System.out .println(Thread.currentThread() .getName()+":"+this 


NHl 
4 


.name+":"+txt); 

} 

} 

10.2.4 Main 类 

最 后 ， 实 现 Main 类 ， 其 中 含有 创建 并 运行 该 示例 所 有 组 件 的 main() 方 法 。 

创建 以 下 元 素 。 

口 一 个 名 为 publisher 的 SubmissionPublisher 对 象 。 我 们 将 使 用 该 对 象 将 事件 发 送 给 消 
费 者 。 

口 五 个 consumer 对 象 ， 它 们 将 接收 发 布 者 创建 的 所 有 事件 。 我 们 使 用 subscribe() 方 法 向 发 
布 者 订阅 消费 者 。 

口 两 个 Producer 对 象 ， 它 们 将 生成 事件 ， 并 使 用 publisher 对 象 将 事件 发 送 给 消费 者 。 我 们 


使 用 JVM 提供 的 默认 ForkJoinPool 对 象 执行 生产 者 对 象 ， 并 使 用 commonPool () 方 法 获取 
ForkdJoinPool 对 象 ， 并 且 使 用 submit () 方 法 执行 它们 。 


public class Main { 


public static void main(String[] args) { 


SubmissionPublisher<Event> publisher = new SubmissionPublisher(); 


for. (Int. 1 =: 0 TT < D3 生 F 咎 } 
Consumer consumer = new Consumer ("Consumer "+i); 
publisher.subscribe (consumer); 


} 


Producer systeml = new Producer (publisher, "System 1"); 
Producer system2 = new Producer (publisher, "System 2"); 


ForkJoinTask<?>taskl1 = ForkJoinPool.commonPool() .submit (systeml); 
ForkJoinTask<?>task2 = ForkJoinPool.commonPool() .submit (system2); 


然后 ， 给 出 一 个 while 循环 ， 该 循环 每 10 秒 输 出 有 关 任 务 和 发 布 者 对 象 的 信息 ， 代 码 块 如 下 : 


do { 
System.out .println("Main: Task 1: "+taskl.isDone()); 
System.out .println("Main: Task 2: "+task2.isDone()); 


System.out.println("Publisher: MaximunLag:"+ 
publisher.estimateMaximumLag () ) ; 

System.out .brintln("Publisher: Max Buffer Capacity: "+ 
publisher.getMaxBufferCapacity()); 


try { 
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TimeUnit.SECONDS.sleep(10); 
} catch (InterruptedException e) { 
e.printSstackTrace(); 


} while ((!taskl.isDone()) || (!task2.isDone()) || 
(publisher.estimateMaximumLag() > 0)); 


为 了 完成 循环 的 执行 ， 要 等 待 三 个 条 件 。 
口 执行 第 一 个 生产 者 对 象 的 任务 完成 执行 。 
口 执行 第 二 个 生产 者 对 象 的 任务 完成 执行 。 


该 数值 。 


最 后 ， 使 用 submissionPublisher 对 象 的 close () 方 法 通知 订阅 者 执行 结束 。 
在 本 例 的 执行 过 程 中 生产 者 使 用 submit() 方法 将 事件 发 送 给 SubmissionPublisher, 而 
submissionPublisher 又 将 事件 发 送 给 不 同 的 消费 者 。 每 个 消费 者 都 使 用 request () 方 法 逐个 请 


求 事件 。 
下 面 的 屏幕 截图 显示 了 该 程序 执行 一 次 得 到 的 部 分 输出 。 


口 SubmissionPublisher 对 象 中 再 没有 未 处 理事 件 。 使 用 estimateMaximumLag () 方 法 获取 


<terminated> Main [java Application] C:\Program FilesJava\jdk-\bin\javaw.exe (2 abr. 2017 23:27:31) 


ForkJoinPool.commonPool-worker-1:Consumer 4: An event has arrived: System 1: Sun Apr 82 23:27:49 CEST 
ForkJoinPool.commonPool-worker-2:Consumer 3: An event has arrived: System 2: Sun Apr 92 23:27:53 CEST 
Main: Task 1: true 

Main: Task 2: true 

Publisher: MaximunLag: 9 

Publisher: Max Buffer Capacity: 256 
ForkJoinPoo1l.commonPool-worker-2:Consumer 
ForkJoinPool.commonPool-worker-1:Consumer 
ForkJoinPool.commonPool-worker-1:Consumer 
ForkJoinPool.commonPool-worker-2:Consumer 
ForkJoinPool .commonPool-worker-2:Consumer 
ForkJoinPool.commonPool-worker-1:Consumer 
ForkJoinPool .commonPool-worker-1:Consumer 
ForkJoinPool .commonPool-worker-1:Consumer 
ForkJoinPool .commonPool-worker-1:Consumer 
ForkJoinPool .commonPool-worker-2:Consumer 
ForkJoinPool .commonPool-worker-1:Consumer 
ForkJoinPool .commonPool-worker-2:Consumer 
ForkJoinPool .commonPool-worker-1:Consumer 
ForkJoinPool.commonPool-worker-1:Consumer 
ForkJoinPool.commonPool-worker-2:Consumer 
ForkJoinPool.commonPool-worker-2:Consumer 
ForkJoinPool.commonPool-worker-1:Consumer 
ForkJoinPool.commonPool-worker-1:Consumer 
ForkJoinPool .commonPool-worker-1:Consumer 
ForkJoinPool.commonPool-worker-3:Consumer 


: An event has arrived: System 
An event has arrived: System 
An event has arrived: System 
An event has arrived: System 
An event has arrived: System 
An event has arrived: System 
An event has arrived: System 1: Sun Apr 82 23:27:54 CEST 
An event has arrived: System 2: Sun Apr 82 23:27:55 CEST 


2: Sun Apr 82 23:27:53 CEST 
1 
2 
1 
2 
2 
1 
2 
An event has arrived: System 2: Sun Apr 82 23:27:57 CEST 
4 
1 
1 
1 
1 
1 
1 


: Sun Apr 92 23:27:53 CEST 
: Sun Apr 92 23:27:53 CEST 
: Sun Apr 92 23:27:54 CEST 
: Sun Apr 92 23:27:55 CEST 
: Sun Apr 92 23:27:53 CEST 


event has arrived: System 2: Sun Apr 82 23:27:57 CEST 
An event has arrived: System 1: Sun Apr 82 23:27:58 CEST 
An event has arrived: System 1: Sun Apr 92 23:27:58 CEST 
An event has arrived: System 1: Sun Apr 92 23:27:59 CEST 
An event has arrived: System 1: Sun Apr 92 23:27:59 CEST 
An event has arrived: System 1: Sun Apr 92 23:27:59 CEST 
An event has arrived: System 1: Sun Apr 92 23:27:59 CEST 
No more events 
No more events 
No more events 
No more events 


上 WU 
三 
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2817: 
2817: 


2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 
2817: 


Event 
Event 


Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 
Event 


number 
number 


number 
number 
number 
number 
number 
number 
number 
number 
number 
number 
number 
number 
number 
number 
number 
number 
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可 以 看 到 main () 方 法 如 何 输出 有 关 任 务 和 publisher 对 象 的 信息 ， 用 户 如 何 接收 不 同 的 事件 ， 
以 及 最 后 main () 方 法 调用 supmissionPublisher 对 象 的 close() 方 法 时 ， 如 何 输 出 由 其 调用 的 


onComplete() 方 法 所 输出 的 消息 。 
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前 面 的 例子 使 用 了 submissionPublisher 类 ， 因 此 没有 实现 Flow.Publisher 接口 和 Flow. 
subscription 接口 。 如 果 submissionPublisher 提供 的 功能 不 符合 需求 ， 那 么 必须 实现 自己 的 
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发 布 者 和 订阅 关系 。 

本 节 ， 你 将 学 习 如 何 实 现 这 两 个 接口 ， 进 而 理解 反应 流 的 规范 。 本 节 将 实现 一 个 新 闻 系 统 ， 其 中 
每 则 新 闻 将 与 一 个 类 别 相关 联 。 订 阅 者 将 订阅 一 个 或 多 个 类 别 ， 而 发 布 者 只 会 向 每 个 订阅 相应 类 别 的 
订阅 者 发 送 新 闻 。 


10.3.1 News 类 


要 实现 的 第 一 个 类 是 News 类 。 该 类 描述 了 要 从 发 布 者 发 送 给 消费 者 的 每 则 新 闻 。 我 们 将 存储 三 
口 category 属性 : 一 个 存储 新 闻 类 别 的 int 值 。 它 可 以 采用 数值 0、1、2 和 3 分 别 表示 体育 、 
世界 、 经 济 和 科学 类 别 的 新 闻 。 
口 txt 属性 : 存储 新 闻 文 本 的 String 值 。 
口 aate 属性 : 存储 新 闻 日 期 的 Date 值 。 
和 往常 一 样 , 仍然 要 将 这 些 属性 声明 为 private, 并 日 实现 相应 的 get () 方 法 和 set () 方 法 获取 和 
设置 这 些 属性 值 。 


10.3.2 发布 者 相关 的 类 


我 们 需要 四 个 类 来 实现 Flow .Publisher 接口 和 Flow.subscription 接口 。 第 一 个 是 实现 了 
Flow.Subscription 接口 的 Mysubscription 类 。 我 们 将 在 该 类 中 保存 三 个 属性 。 
口 canceled 属性 : 用 于 指示 订阅 是 否 被 取消 的 布尔 值 。 
D requested 属性 : 用 于 存储 消费 者 所 请 求 的 新 闻 条 数 的 AtomicLong 值 。 
口 categories 属性 : 用 于 存储 与 当前 订阅 相关 联 的 新 闻 类 别 的 一 组 整 型 值 。 
下 面 的 代码 展示 了 对 上 述 属 性 的 声明 。 


public class MySubscription implements Subscription { 
private boolean cancelled = false; 
private AtomicLong requested = new AtomicLong(0); 
private Set<Integer> categories; 


然后 , 还 要 实现 Flow.Subscription 接口 所 提供 的 两 个 方法 : cancel () 方 法 和 request () 方 法 。 


@Override 
public void cancel() { 
cancelled=true; 


} 


@Override 

public void request (long value) { 
requested.addAndGet (value); 

} 


己 


cancel () 方 法 只 是 将 cancelled 属性 设置 为 true， 而 request () 方 法 则 会 增加 requested 
属性 的 值 。 在 实际 例子 中 ， 可 能 还 要 对 那些 作为 参数 传递 给 这 些 方法 的 值 进 行 验证 。 
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然后 ， 我 们 还 实现 了 其 他 方法 来 获取 和 设置 该 类 的 各 属性 值 。 


E 
帅 


口 iscancelled() : 该 方法 返回 cancelled 属性 的 值 。 
口 vetRequested(): 该 方法 使 用 get () 方 法 返回 requested 属性 的 值 。 


关联 。 


上 出 


口 decreaseRequested(): 该 方法 使 用 decrementAndGet () 方 法 减少 requested 属性 的 值 。 
口 setcategories (): 该 方法 设 定 categories 属性 的 值 。 
口 hascategory() : 该 方法 返回 布尔 值 ， 指 明 参 数 中 的 类 别 (一 个 int 值 ) 是 否 与 当前 订阅 相 


然后 实现 consumerData 类 。 我 们 将 使 用 该 类 存储 订阅 者 的 信息 , 以 及 发 布 者 和 订阅 者 之 间 的 订 


阅 关 系 。 因 此 ， 该 类 有 如 下 两 个 属性 


Lo 


口 consumer 属性 : 使 用 News 类 参数 化 的 Subscriber 值 。 它 将 存储 新 闻 消费 者 的 关联 关系 。 
口 subscription 属性 : 与 发 布 者 和 订阅 者 之 间 的 订阅 关系 相关 的 Mysubscription 值 。 


我 们 还 给 出 了 获取 和 设置 这 两 个 属性 值 的 get () 方 法 和 set () 方 法 。 


然后 ， 还 要 实现 PublisherTas 


k 类 ， 该 类 实现 了 Runnable 接口 。 我 们 将 使 用 这 样 的 任务 向 消 


费 者 发 送 条 目 。 我 们 声明 了 两 个 属性 来 存储 与 消费 者 相关 的 数据 、 消 费 者 和 发 布 者 之 间 的 订阅 关系 ， 
以 及 想 要 发 送 的 条 目 〈 在 我 们 的 例子 中 是 一 则 新 闻 )。 


使 用 该 类 的 构造 函数 初始 化 这 两 个 属 


口 consumerData 属性 : 如 前 所 述 ，consumerData 对 象 分 别 存储 了 Subscriber 对 象 和 
ysSubscription 对 象 。 前 者 含有 各 条 目的 消费 者 ， 后 者 包含 发 布 者 与 发 布 者 之 间 的 订阅 关系 。 
口 news 属性 : 含有 想 要 发 送 给 订阅 者 的 新 闻 的 News 对 象 。 

性 。 


public class PublisherTask implements Runnable { 


private ConsumerDataconsumerData; 


private News news; 


public PublisherTask (ConsumerDataconsumerData, News news) { 
this.consumerData = consumerData; 


this.news = news; 


} 


条 件 


[e) 


方法 。 
如 果 该 news 对 象 通过 了 这 三 个 条 件 ， 
了 subscription 对 象 


口 订阅 没有 取消 : 使 用 supscription 对 象 的 ijscancelled() 方 法 。 
口 订阅 者 请 求 了 更 多 的 条 上 日 : 使 用 subscription 对 象 的 getRequ 
口 News 对 象 的 类 别 存 在 于 与 该 订阅 者 关联 的 类 别 集中 : 使 用 subscrip 


然后 ， 实 现 run () 方 法 。 该 方法 将 检查 是 否 必 须 将 News 对 象 发 送 给 订阅 者 。 它 将 检查 以 下 三 个 


ested() 方 法 。 
tion 对 象 的 hasCcategory () 


那么 使 用 onNext () 方 法 将 其 发 送 给 订阅 者 。 我 们 还 使 用 


代码 如 下 : 


的 aecreaseReduestead () 方 法 来 减少 该 订阅 者 请 求 的 条 目 数 。 该 方法 的 源 
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@Override 
public voidq run() { 
MySubscription subscription = consumerData.getSubscription(); 
if (!(subscription.isCanceled()) && (subscription.getRequested() > 0) 
&& (subscription.hasCategory (news.getCategory()))) { 
consumerData.getConsumer() .onNext (news); 
subscription.decreaseRequested(); 
3 
} 


v7 


最 后 实现 MyPublishe 类 。 该 类 实现 了 采用 News 类 参数 化 的 Flow. Publisnher 接口 。 我 们 将 
于 用 两 个 属性 来 实现 该 类 的 行为 。 
口 consumers 属性 : 一 个 使 用 consumerData 类 参数 化 的 ConcurrentLinkedDeque 对 象 ， 
用 于 存储 该 发 布 者 的 所 有 订阅 者 的 信息 。 

口 executor 属性 : 一 个 用 于 执行 PublisherTask 对 象 的 ThreadPoolExecutor 对 象 。 
使 用 该 类 的 构造 函数 初始 化 这 两 个 属性 。 


public class MyPublisher implements Publisher<News> { 


< 


private ConcurrentLinkedDeque<ConsumerData> consumers; 
private ThreadPoolExecutor executor; 


public MyPublisher() { 
consumers=new ConcurrentLinkedDeque<>(); 
executor = (ThreadPoolExecutor)Executors.newFixedThreadPool 
(RuNntime.getRuntime() .availableProcessors()); 


; 


然后 ， 实 现 Flow .Publisnher 接口 提供 的 subscripbe() 方 法 。 该 方法 接收 想 要 订阅 该 发 布 者 的 
Subscriber 对 象 作为 参数 。 创 建 一 个 新 的 Mysubscription 对 象 、 一 个 新 的 consumerData 对 象 
( 添加 到 消费 者 的 数据 结构 )， 并 且 调 用 subscriber 对 象 的 onsubscribe() 方 法 (其 参数 为 


MySubscription 对 象 )。 


@Override 
public void subscripbe(Subscriber<? super News> subscriber) { 


ConsumerDataconsumerData=new ConsumerData(); 
consumerData.setConsumer ( (Subscriber<News>) subscriber); 


MySubscription subscription=new MySubscription(); 
consumerData.setSubscription(subscription); 


subscriber.onSubscribe(subscription); 


consumers.add (consumerData); 


} 

然后 , 实现 publish () 方 法 。 该 方法 接收 一 个 News 对 象 作为 参数 ， 并 尝试 将 其 发 送 给 该 发 布 者 
的 所 有 订阅 者 。 处 理 存储 在 consumers 数据 结构 中 的 所 有 元 素 ， 创 建 一 个 新 的 PublisherTask 对 
象 ， 并 使 用 execute () 方 法 在 执行 器 中 执行 它们 。 
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如 果 发 生 错 误 ， 将 对 subscriber 对 象 使 用 onError () 方 法 ,以 便 将 错误 通知 给 订阅 者 。 


public voidq publish(News news) { 
consumers.forEach( consumerData -> { 
try { 


executor.execute(new PublisherTask (consumerData, 


news)); 
} catch (Exception e) { 


consumerData.getConsumer() .onError (e); 


}); 
} 


最 后 , 实现 shut down () 方 法 。 该 方法 将 通知 所 有 订阅 者 通信 结束 , 并 | 
Executor 的 执行 。 


上 完成 内 部 ThreadPool- 


public void shutdown() { 
consumers.forEach( consumerData -> { 
consumerData.getConsumer() .onComplete(); 


2 
executor.shutdown(); 
} 
} 


在 这 四 个 类 中 ， 我 们 实现 了 该 示例 的 发 布 者 部 分 。 接 下 来 介绍 消费 者 部 分 的 实现 。 
10.3.3 ”consumer 类 


该 类 实现 了 Flow.subscriber 接口 ， 并 且 实 现 了 新 闻 的 消费 者 。 在 内 部 ， 它 使 用 了 三 个 属性 。 
口 subscription 属性 : 一 个 Mysubscription 对 象 ， 它 存储 了 订阅 者 和 发 布 者 之 间 的 订阅 关系 。 
口 name 属性 : 一 个 存储 订阅 者 名 称 的 string 属性 。 

口 categories 属性 : 一 个 整 型 数值 集合 ， 存 储 了 该 订阅 者 想 要 接收 的 消息 的 类 别 。 

和 此 前 一 样 ， 使 用 该 类 的 构造 函数 初始 化 这 些 属性 。 


public class Consumer implements Subscriper<News> { 


private MySubscription subscription; 
private String name; 


private Set<Integer> categories; 


public Consumer (String name, Set<Integer> categories) { 
this.name=name; 


this.categories = categories; 


} 


现在 , 要 实现 Flow .subscriber 接口 提供 的 方法 了 。onCcomplete() 方 法 和 onError () 方 法 仅 
在 控制 台 输 出 信息 


/ENO 


@Override 
public void onComplete() { 


System.out .printf("%s - %s: Consumer - Completed\n", name, 


Thread.currentThread() .getName ()); 
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@Override 
public void onError (Throwable exception) { 
System.out .printf("%s - %s: Consumer - Error: %$s\n", name, 


Thread.currentThread() .getName (), 
exception.getMessage()); 


} 


onSubscribe() 方 法 接收 subscription 对 象 作 为 参数 ,在 subscription 属性 中 存储 该 对 象 ， 
并 使 用 与 此 订阅 者 相关 联 的 类 别 更 新 该 属性 。 最 后 ， 使 用 request () 方 法 请 求 第 一 个 News 对 象 。 


@Override 
public void onSubscribe(Subscription subscription) { 
this.subscription = (MySubscription)subscription; 


this.subscription.setCategories (this.categories); 

this.subscription.request (1); 

System.out .printf("%s: Consumer - Subscription\n", 
Thread.currentThread() .getName ()); 


} 


最 后 实现 onNext () 方 法 ， 该 方法 接收 一 个 News 对 象 作为 参数 ， 丰 控制 台 输 出 该 对 象 的 信息 ， 
并 有 使 用 request () 方 法 请 求 下 一 个 对 象 。 


@Override 
public void onNext (News item) { 
System.out .printf("%$s - %s: Consumer - News\n", name, 
Thread.currentThread() .getName ()); 
System.out .printf("%s - %s: Text: %Ss\n", name, 
Thread.currentThread 


() .getName (),item.getTxt ()); 
System.out .printf("%s - %s: Category: %s\n", name, 
Thread.currentThread() .getName () ， 
item.getCategory ()); 
System.out .printf("%s - %s: Date: %Ss\n", name, 
Thread.currentThread() .getName(),item.getDate()); 
subscription.request (1); 


10.3.4 Main 类 


最 后 ， 使 用 main () 方 法 实现 Main 类 ,测试 在 该 示例 中 实现 的 所 有 类 。 
创建 一 个 MyPublisher 对 象 和 三 个 Consumer 对 象 ， 如 下 所 示 。 

口 consumer1 对 象 只 接收 运动 方面 的 新 闻 。 
口 consumer2 对 象 只 接收 关于 科学 的 新 闻 。 
口 consumer3 对 象 只 接收 四 种 类 别 的 新 闻 。 
创建 这 些 对 象 并 且 将 它们 订阅 到 发 布 者 。 


public class Main { 


public static void main(String[] args) { 
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MyPublisher publisher=new MyPublisher(); 
Subscriber<News>consumer1l, consumer2, consumer3; 


Set<Integer> sports = new HashSet (); 
sports.add (News .SPORTS ) ; 
Consumerl=new Consumer (" Sport Consumer",sports); 


Set<Integer> science = new HashSet (); 
science.add (News .SCIENCE); 
consumer2=new Consumer ("Science Consumer", science); 


Set<Integer> all = new HashSet (); 
all.add (News .ECONOMIC ) ; 
all.add (News .SCIENCE) ; 

all.add (News .SPORTS); 

all.add (News .WORLD); 

consumer3=new Consumer ("All Consumer", all); 


publisher.subscribe (consumerl); 
publisher.subscribe (consumer2); 


publisher.subscribe (consumer3); 


System.out .printf ("Main: Start\n"); 


然后 ， 使 用 publisher 对 象 将 四 则 新 闻 ( 每 个 类 别 各 一 条 ) 发 送 给 消费 者 。 每 则 新 闻 之 间 间 隔 


1 秒 钟 。 


News 


news. 
news. 
news. 


publ 


try 
严守 
} ca 
e. 


news 
news 
news 
news 
publ 


try 
Te 


news=new News () ; 

setTxt ("Basketball news"); 
setCategory (News .SPORTS ) ; 
SetDate (new Date()); 


isher.publish (news); 


{ 

meUnit.SECONDS.sleep (1); 

tch (InterruptedException e) { 
printSstackTrace(); 


=new News () ; 

.SetTxt ("Money news"); 
.SetCategory (News .ECONOMIC ) ; 
.SetDate (new Date()); 
isher.publish (news); 


{ 
meUnit.SECONDS.sleep (1); 


} catch (InterruptedException e) { 


经 2 


news 


printStackTrace (); 


=new News () ; 
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news.setTxt ("Europe news"); 
news.setCategory (News .WORLD);} 
news.setDate(new Date()); 
publisher.publish (news); 


try 
TimeUnit.SECONDS.sleep(1); 

} catch (InterruptedException e) { 
e.printStackTrace(); 


news=new News () ; 

news.setTxt ("Space news"); 
news.setCategory (News .SCIENCE); 
news.setDate(new Date()); 
publisher.publish (news); 


最 后 ， 使 用 publisher 对 象 的 shutdown () 方 法 完成 系统 所 有 要 素 的 执行 。 


publisher.shutdown(); 
System.out .printf ("Main: End\n"); 


} 


下 面 的 屏幕 截图 显示 了 本 例 执行 时 的 一 部 分 输出 结果 。 可 以 看 到 consumer3 对 象 接收 了 所 有 新 
闻 ， 但 是 consumer1 和 consumer2 对 象 只 接收 相关 类 别 的 新 闻 。 


<terminated> Main [Java Application] C:\Program Files\Java\jdk-\bin\Javaw.exe (4 abr. 2017 0:44: 
All Consumer - pool-1-thread-3: Category: 9 

Sport Consumer - pool-1-thread-1: Category: 9 

Sport Consumer - pool-1-thread-1: Date: Tue Apr 94 98:44:25 CEST 2817 
All Consumer - pool-1-thread-3: Date: Tue Apr 84 99:44:25 CEST 2817 
All Consumer - pool-1-thread-4: Consumer - News 

All Consumer - pool-1-thread-4: Text: Money news 

All Consumer - pool-1-thread-4: Category: 2 

All Consumer - pool-1-thread-4: Date: Tue Apr 84 99:44:26 CEST 2817 
All Consumer - pool-1-thread-2: Consumer - News 

All Consumer - pool-1-thread-2: Text: Europe news 

All Consumer - pool-1-thread-2: Category: 1 

All Consumer - pool-1-thread-2: Date: Tue Apr 84 99:44:27 CEST 2617 
Science Consumer - pool-1-thread-3: Consumer - News 

All Consumer - pool-1-thread-1: Consumer - News 

Science Consumer - pool-1-thread-3: Text: Space news 

Science Consumer - pool-1-thread-3: Category: 3 

All Consumer - pool-1-thread-1: Text: Space news 

Science Consumer - pool-1-thread-3: Date: Tue Apr 94 6969:44:28 CEST 2917 
All Consumer - pool-1-thread-1: Category: 3 

All Consumer - pool-1-thread-1: Date: Tue Apr 84 99:44:28 CEST 2817 
Sport Consumer - main: Consumer - Completed 

Science Consumer - main: Consumer - Completed 

All Consumer - main: Consumer - Completed 

Main: End 


10.4 小 结 


在 本 章 中 ， 你 了 解 到 Java 9 是 如 何 实现 反应 流 规范 的 。 它 为 
标准 。 该 标准 基于 以 下 三 个 要 素 。 


= 


# 有 非 阻塞 回 压 的 异步 流 处 理 定义 了 
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口 信息 的 发 布 者 。 
口 该 信息 的 一 个 或 多 个 订阅 者 。 
口 发 布 者 和 消费 者 之 间 的 订阅 关系 。 
Java 提供 了 三 个 接口 来 实现 这 些 元 素 。 
口 Flow.Publisher 接口 ， 用 于 实现 信息 的 发 布 者 。 
口 Flow.Subscriber 接口 ， 用 于 实现 该 信息 的 订阅 者 ( 消费 者 ) 。 
口 Flow.Subscription 接口 ， 用 于 实现 发 布 者 和 订阅 者 之 间 的 订阅 关系 。 
Java 还 提供 了 一 个 实用 工具 类 ， 即 实现 Publisher 接口 的 SupmissionPublisher 类 ， 如 果 应 
程序 有 默认 行为 ， 也 可 以 使 用 它 。 
本 章 实现 了 两 个 示例 , 这 两 种 实现 可 用 于 Java 中 的 反应 流 。 首 先 实现 了 一 个 事件 通知 系统 ,该 系 
统 实现 了 subscriber 类 ,使 用 submissionPublisher 类 将 事件 发 送 给 订阅 者 。 然 后 实现 了 一 个 
新 闻 系 统 ， 它 实现 了 所 有 必 备 元 素 。 


尽管 反应 流 规范 定义 了 这 些 流 的 预期 行为 ， 但 是 基于 Java 提供 的 接口 ， 还 可 以 实现 不 同 的 行为 。 
不 过 ， 这 并 不 是 什么 好 主意 。 


下 一 章 将 详细 介绍 可 以 在 并 发 应 用 程序 中 使 用 的 数据 结构 和 同步 机 制 。 


探究 并 发 数据 结构 和 同步 
工具 


每 个 计算 机 程序 中 最 重要 的 元 素 之 一 就 是 数据 结构 。 数 据 结构 使 我 们 可 以 存放 数据 ， 从 而 使 应 用 
程序 可 以 按照 需求 以 不 同 的 方式 读 取 、 转 换 和 写 人 这 些 数据 。 选 择 一 种 适当 的 数据 结构 是 获得 良好 性 
能 的 关键 。 做 出 了 糟糕 的 选择 就 会 大 幅度 降低 算法 的 性 能 。Java 并 发 API 包 含 一 些 用 于 并 发 应 用 程序 
的 数据 结构 ， 而 它们 并 不 会 导致 数据 不 一 致 或 者 信息 丢失 。 
并 发 应 用 程序 中 的 另 一 个 关键 点 是 同步 机 制 。 通 过 使 用 同步 机 制 ， 可 以 创建 一 个 临界 段 (也 就 是 
一 段 一 次 只 能 被 一 个 线程 执行 的 代码 )， 进 而 实现 互 斥 。 不 过 ， 也 可 以 使 用 同步 机 制 实现 两 个 线程 之 
间 的 依赖 关系 ,例如 一 个 并 发 任务 必须 等 待 另 一 个 任务 完成 。Java 并 发 API 包含 了 像 synchronized 
关键 字 这 样 的 基本 同步 机 制 ， 也 包含 了 一 些 非常 高 层 的 工具 ， 例 如 cyclicBarrier 类 以 及 在 第 6 章 
中 用 到 的 Phaser 类 等 。 
本 章 将 介绍 以 下 两 个 主题 。 
口 并 发 数据 结构 。 
口 同步 机 制 。 


11.1 并 发 数据 结构 


每 个 计算 机 程序 都 要 用 到 数据 。 它 们 从 数据 库 、 文 件 或 者 其 他 来 源 获 取 数 据 ， 对 数据 进行 转换 ， 
然后 将 转换 后 的 数据 再 写 回 到 某 个 数据 库 、 文 件 或 者 其 他 目标 ,程序 对 存放 在 内 存 中 的 数据 进行 操作 ， 
并 且 采 用 数据 结构 将 数据 存放 在 内 存 中 。 

实现 一 个 并 发 应 用 程序 时 ， 必 须 注意 数据 结构 的 使 用 。 如 果 不 同 的 线程 可 以 修改 存放 在 某 个 唯 
一 数据 结构 中 的 数据 ， 就 必须 使 用 同步 机 制 保护 在 该 数据 结构 之 上 的 修改 操作 。 如 果 不 这 样 做， 就 
会 出 现 数据 竞争 条 件 。 应 用 程序 可 能 有 时 可 以 正确 工作 ， 但 是 下 一 次 可 能 就 会 遇 到 某 个 随机 性 的 异 
常 ， 进 而 陷入 死 循环 ， 或 者 毫 无 声息 地 给 出 一 个 不 正确 的 结果 。 究 竟 会 出 现 何 种 结局 ， 取 决 于 执行 的 
顺序 。 

为 了 避免 数据 竞争 条 件 ， 可 以 进行 如 下 操作 。 

口 使 用 一 种 非 同步 的 数据 结构 ， 并 且 自 己 为 其 加 入 同步 机 制 。 


Me 
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口 使 用 由 Java 并 发 API 提供 的 某 种 数据 结构 ， 这 种 数据 结构 在 内 部 实现 了 同步 机 制 ， 并 且 针对 
并 发 应 用 程序 做 了 优化 。 
第 二 种 供 选 方案 是 最 推荐 的 。 本 节 将 回顾 最 重要 的 并 发 数据 结构 。 


11.1.1 阻塞 型 数据 结构 和 非 阻塞 型 数据 结构 


Java 并 发 API 中 提供 了 两 种 并 发 数据 结构 。 
口 阻塞 型 数据 结构 : 这 种 类 型 的 数据 结构 提供 了 插入 数据 和 删除 数据 的 方法 ， 当 操作 无 法 立即 
执行 时 ( 例如， 如 果 你 要 选取 某 个 元 素 但 数据 结构 为 空 )， 执 行 调用 的 线程 就 会 被 阻塞 ， 直 到 
可 以 执行 该 操作 为 止 。 
口 非 阻塞 型 数据 结构 : 这 种 类 型 的 数据 结构 提供 了 插入 数据 和 删除 数据 的 方法 ， 当 无 法 立即 执 

行 操作 时 ,返回 一 个 特定 值 或 者 抛 出 一 个 异常 。 
有 时 , 非 阻塞 型 数据 结构 会 有 一 个 与 之 等 效 的 阻塞 型 数据 结构 。 例 如 , ConcurrentLinkedDequ 
类 是 一 个 非 阻塞 型 数据 结构 , 而 LinkedBlockingDeque 类 则 是 一 个 与 之 等 效 的 阻塞 型 数据 结构 。 阻 
塞 型 数据 结构 的 一 些 方法 具有 非 阻塞 型 数据 结构 的 行为 。 例 如 ，Deque 接口 定义 了 pollFirst () 方 
法 ， 如 果 双 端 队列 为 空 ， 该 方法 并 不 会 阻塞 ， 而 是 返回 null 值 。 男 一 方面 ，getFirst () 方 法 在 这 
种 情况 下 会 抛 出 异常 。 每 个 阻塞 型 队列 的 实现 都 实现 了 该 方法 。 


11.1.2 ”并 发 数据 结构 


Java 集合 框架 ( Java collections framework，JCF ) 提供 了 一 个 包含 多 种 可 用 于 上 串 行 编程 的 数据 结 
构 集 合 。 Java 并 发 API 对 这 些 数据 结构 进行 了 扩展 , 提供 了 另外 一 些 可 用 于 并 发 应 用 程序 的 数据 结构 ， 
包括 如 下 两 项 。 
口 接口 : 扩展 了 JCF 提供 的 接口 ， 添 加 了 一 些 可 用 于 并 发 应 用 程序 的 方法 。 
口 类 : 实现 了 前 面 的 接口 ， 提 供 了 可 以 用 于 应 用 程序 的 具体 实现 。 

下 面 将 介绍 你 会 在 并 发 应 用 程序 中 用 到 的 接口 和 类 。 

1. 接口 

首先 ， 介 绍 一 下 由 并 发 数据 结构 实现 的 最 重要 的 接口 。 

@ BlockingQueue 

队列 是 一 种 线性 数据 结构 ， 允 许 在 队列 的 末尾 插 和 人 元 素 且 从 队列 的 起 始 位 置 获取 元 素 。 它 是 一 个 
先入 先 出 (FIFO ) 型 数据 结构 ， 第 一 个 进入 队列 的 元 素 将 是 第 一 个 被 处 理 的 元 素 。 

JCF 定义 了 Queue 接口 , 该 接口 定义 了 在 队列 中 执行 的 基本 操作 。 该 接口 提供 了 实现 如 下 操作 的 
方法 。 
口 在 队列 的 末尾 插入 一 个 元 素 。 
口 从 队列 的 首部 开始 检索 并 删除 一 个 元 素 。 
口 从 队列 的 首部 开始 检索 一 个 元 素 但 不 删除 。 
对 于 这 些 方法 ， 该 接口 定义 了 两 个 版 本 。 它 们 在 方法 执行 时 具有 不 同 的 表现 〈 例 如 ， 如 果 你 要 检 
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索 某 个 空 队 列 中 的 元 素 )。 

口 可 以 抛 出 异常 的 方法 。 
口 可 以 返回 某 一 特定 值 的 方法 ， 例 如 false 或 null。 
下 表 包 含 了 每 个 操作 所 对 应 的 方法 名 称 。 


操作 抛 出 异常 返回 特殊 值 
搬入 adad() offer() 
检索 并 删除 remove () pol1() 
检索 但 不 删除 element () peek () 
BlockingQueue 接口 扩展 了 oueue 接口 ， 添 加 了 当 操作 不 可 执行 时 阻塞 调用 线程 的 方法 。 这 些 
方法 有 如 下 几 种 。 
操作 阻 塞 
插入 Put () 
检索 并 删除 take() 
检索 但 不 删除 N/A 


@ BlockingDeque 
与 队列 一 样 ， 双 端 队列 也 是 一 种 线 怕 
JCF 定义 了 Deque 接口 ， 该 接口 扩展 了 oueue 接口 。 除 了 Queue 接 


数据 结构 ， 但 是 允许 从 该 数据 结构 的 两 端 插入 和 删除 元 素 。 
口 提 供 的 方法 之 外 ， 它 还 提供 了 


从 两 端 执行 插入 、 检 索 且 删除 、 检 索 但 不 删除 等 操作 的 方法 。 
操 ” 作 抛 出 异常 返回 特定 值 

插入 addFirst ()、adqdLast () offerFirst()、 offerLast() 

检索 并 删除 removeFirst()、 removeLast () pollFirst()、 pollLast() 

丛 索 但 不 删除 getrFirst ()、 getLast() peekFirst()、 peekLast() 

BlockingDeque 接口 扩展 了 Deque 接口 ， 添 加 了 当 操 作 无 法 执行 时 阻塞 调用 线程 的 方法 。 
操作 阻 塞 

插入 putFirst ()、 putLast () 
检索 并 删除 takeFirst ()、takeLast() 
检索 但 不 删除 N/A 


@ ConcurrentMap 
map( 有 时 也 叫 关联 数组 ) 是 一 种 允许 存储 ( 键 , 值 ) 对 的 数据 结构 。JCF 提供 了 Map 接口 ， 它 定义 
了 使 用 map 的 基本 操作 。 这 些 方法 包括 如 下 几 个 。 
口 put (): 向 map 搬入 一 个 ( 键 ， 值 ) 对 。 
D get () : 返回 与 某 个 键 相 关联 的 值 。 
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口 remove (): 删除 与 特定 键 相关 联 的 ( 键 ， 值 ) 对 。 
口 containsKey() 和 containsValue() : 如 果 map 中 包含 值 的 特定 键 ， 则 返回 true。 
该 接口 在 Java 8 中 做 了 修改 ， 包 含 了 下 述 新 方法 。 本 章 接 下 来 的 内 容 将 讲 到 如 何 使 用 这 些 方法 。 
口 forgach () : 该 方法 针对 map 的 所 有 元 素 执行 给 定 函数 。 
口 compute() 、computeIfAbsent () 和 computeIfPresent() : 这 些 方法 允许 指定 一 个 函 
数 ， 该 函数 用 于 计算 与 某 个 键 相 关 的 新 值 。 
口 merge() : 该 方法 允许 你 指定 将 某 个 ( 键 ， 值 ) 对 合并 到 某 个 已 有 的 map 中 。 如 果 map 中 没有 
该 键 ， 则 直接 插入， 否则， 执行 指定 的 函数 。 

ConcurrentMap 扩展 了 Map 接口 ,为 并 发 应 用 程序 提供 了 相同 的 方法 。 请 注意 , 在 Java 8 和 Java9 
中 (与 Java7 不 同 )，concurrentMap 接口 并 未 在 Map 接口 的 基础 上 增加 新 方法 。 

@ TransferQueue 

该 接口 扩展 了 BlockingQueue 接口 ， 并 且 增 加 了 将 元 素 从 生产 者 传输 到 消费 者 的 方法 。 在 这 些 
方法 中 ， 生 产 者 可 以 一 直 等 到 消费 者 取 走 其 元 素 为 止 。 该 接口 添加 的 新 方法 有 如 下 几 项 。 
D transfer(): 将 一 个 元 素 传输 给 一 个 消费 者 ， 并 且 等 待 ( 阻塞 调用 线程 ) 该 元 素 被 使 用 。 
D tryTransfer(): 如 果 有 消费 者 等 待 ， 则 传输 一 个 元 素 。 否 则 ， 该 方法 返回 false 值 ， 并 
且 不 将 该 元 素 插 入 队列 。 

2. 类 

Java 并 发 API 为 之 前 描述 的 接口 提供 了 多 种 实现 ， 其 中 一 些 
些 实现 则 增加 了 新 笑 有 用 的 功能 。 

@ LinkedBlockingQueue 

该 类 实现 了 Blockingoueue 接口 ， 提 供 了 一 个 带 有 阻塞 型 方法 的 队列 ， 该 方法 可 以 有 任意 有 限 
数量 的 元 素 。 该 类 还 实现 了 oueue 、collection 和 Iterable 接口 。 

@ ConcurrentLinkedQueue 

该 类 实现 了 oueue 接口， 提供 了 一 个 线程 安全 的 无 限 队列 。 从 内 部 来 看 ， 该 类 使 用 一 种 非 阻塞 
型 算法 保证 应 用 程序 中 不 会 出 现 数据 竞争 。 

© LinkedBlockingDeque 

该 类 实现 了 BlockingDeque 接口 ， 提 供 了 一 个 带 有 阻塞 型 方法 的 双 端 队列 ， 它 可 以 有 任意 有 限 
数量 的 元 素 。 LinkedBlockingDequ 具有 比 LinkedBlockingQueue 更 多 的 功能 ， 但 是 其 开销 更 
大 。 因 此 ， 应 在 双 端 队列 特性 不 必要 的 场合 使 用 LinkedBlockingQueue 类 。 

@ ConcurrentLinkedDeque 

该 类 实现 了 Deque 接口 ， 提 供 了 一 个 线程 安全 的 无 限 双 端 队列 ， 它 允许 在 双 端 队列 的 两 端 添 加 
和 删除 元 素 。 它 具有 比 concurrentLinkedoueue 更 多 的 功能 , 但 与 LinkedBlockingDeque 相同 ， 
该 类 开销 更 大 。 

@ ArrayBlockingQueue 

该 类 实现 了 Blockingoueue 接口 ， 基 于 一 个 数组 提供 了 阻塞 型 队列 的 一 个 实现 ， 可 以 有 有 限 个 
元 素 。 它 还 实现 了 Queue、Collection 和 Iterable 接口 。 与 基于 数组 的 非 并 发 数据 结构 ( ArrayList 
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和 ArrayDeque ) 不 同 ，ArrayBlockingoueue 按照 构造 函数 中 所 指定 的 


而 且 不 可 再 调整 其 大 小 。 


@ DelayQueu 


该 类 实现 了 BlockingDeque 接 
队列 的 元 素 必 须 实 现 Delayead 接口 ， 因 此 它们 必须 实现 getDelay () 方法。 如 刁 


e 


固定 大 小 为 数组 分 配 空间 ， 


值 或 0， 那么 延 时 已 过 期 ， 可 以 取出 队列 的 元 素 。 位 于 队列 首部 的 是 延 时 负数 值 最 小 的 元 素 。 


@ LinkedTra 


nsferQueue 


口 ， 提 供 了 一 个 带 有 阻塞 型 方法 和 无 限 数目 元 素 的 队列 实现 。 该 
该 方法 返回 一 个 负 


该 类 提供 了 一 个 TransferQueue 接口 的 实现 。 它 提供 了 一 个 元 素数 量 无 限 的 阻塞 型 队列 。 这 些 
元 素 有 可 能 被 用 作 生 产 者 和 消费 者 之 间 的 通信 信道 。 在 那里 , 生产 者 可 以 等 待 消费 者 处 理 它 们 的 元 素 。 


@ PriorityB 


该 类 提供 了 Blockingoueue 接 


lockingQueue 


可 以 通过 该 类 构造 函数 中 指定 的 比较 器 选择 元 素 。 该 队列 的 首部 由 元 素 的 排列 顺序 决定 。 


@ Concurren 


该 类 提供 了 concurrentMap 接 


tHashMap 


Map 接口 新 增加 的 方法 之 外 ， 该 类 还 增加 了 其 他 一 些 方法 。 
searchEntries() 、searchKeys() 和 searchValues(): 这 些 方法 允许 对 


( 键 ， 值 ) 对 、 键 或 者 值 应 用 搜索 函数 。 这 些 搜索 功能 可 以 是 一 个 lambda 表达 式 。 搜 索 函数 返 


口 search() 、 


回 一 个 非 空 值 时 ， 该 方法 结束 。 这 也 是 该 方法 的 执行 结果 。 
reduceEntries()、reduceKeys() 和 requcevalues () : 这 些 方法 允许 应 用 


口 fedqduce () 、 


口 的 一 个 实现 ， 在 该 类 中 可 以 按照 元 素 的 自然 顺序 选择 元 素 ， 也 


口 的 一 个 实现 。 它 提供 了 一 个 线程 安全 的 哈 希 表 。 除 了 Java 8 中 


一 个 reduce () 操作 转换 ( 键 ， 值 ) 对 、 键 ， 或 者 将 其 整个 哈 希 表 作 为 流 处 理 (参考 第 9 章 ， 获 
取 有 关 reduce() 方 法 的 详细 内 容 ) 。 


ConcurrentHashMap 针对 那些 依赖 其 线程 安全 性 而 非 同 步 细 节 的 程序 。 调 整 map 的 大 小 是 一 项 
比较 慢 的 操作 。 该 类 还 增加 了 其 他 一 些 方 法 ,例如 for 


著述 。 


11.1.3 ”使 用 新 特性 


本 节 ， 你 将 学 会 


EachValue、forEachKey 等 ,但 是 此 处 不 再 


1. concurrentHashMap 的 第 一 个 例子 


第 9 章 实现 了 


个 应 用 程序 , 可 以 对 一 个 由 20 000 个 


亚马逊 商品 联合 采购 网 络 元 数据 中 获取 了 这 些 信 息 ， 该 元 数据 中 包含 有 关 548 552 件 商品 的 信 ， 


括 商品 的 名 称 、 销 售 排名 和 相似 商品 。 可 以 通过 搜索 SNAP 网 站 的 “Amazon product co-purchasing 


network metadata” 下载 该 数据 集 , 在 该 例子 中 ,我 们 采 月 


HashMap<String, 


如 何 使 用 在 Java 8 和 Java 9 中 为 并 发 数据 结构 引入 的 新 特性 。 


V 马 还 商品 构成 的 数据 集 进行 搜索 。 我 们 从 


有 了 个 名 为 productsByBuyer 的 Concurrent— 


List<ExtendedProduct>> 存 放 


标识 符 ， 而 其 值 为 月 
的 新 方法 。 


用 户 所 购买 商品 的 信息 。 该 map 的 键 是 用 户 的 
上 户 购买 商品 的 列表 。 本 节 将 采用 该 map 学 习 如 何 使 用 concurrentHashMap 类 
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@ forEach() 方 法 

该 方法 允许 你 指定 对 concurrentHashMap 的 每 个 ( 键 ， 值 ) 对 都 要 执行 的 函数 。 该 方法 有 很 多 版 
本 ,但 是 最 基本 的 版 本 只 有 一 个 可 以 以 lambda 表达 式 表示 的 BiConsumer 函数 。 例 如 ， 你 可 以 使 用 
该 方法 打印 每 个 用 户 购买 了 多 少 商品 ， 其 代码 如 下 : 


productsByBuyer.forEach( (id, list) -> System.out .Drintln(id+": 
"+list.size())); 


这 个 基本 版 的 forEach () 方 法 是 常规 Map 接口 的 一 部 分 ， 通常 以 顺序 方式 执行 。 在 这 上段 代码 
我 们 使 用 了 一 个 lambda 表达 式 ， 其 中 ia 是 元 素 的 键 ， 而 1ist 是 元 素 的 值 。 
在 另 一 个 例子 中 ， 使 用 了 forEach () 方 法 来 计算 用 户 的 平均 评级 。 


productsByBuyer.forEach( (id, list) -> { 

double average=list.stream() .mapToDouble(item -> item.getValue()) 
.average() .getAsDouble(); 

System.out .println(id+": "+average); 


在 这 段 代码 中 ， 也 使 用 了 一 个 lambda 表达 式 ， 其 中 id 是 元 素 的 键 ，1ist 是 元 素 的 值 。 我 们 将 

一 个 流 应 用 到 该 商品 列表 ， 计 算 了 平均 评级 。 

该 方法 还 有 如 下 其 他 版 本 。 

口 forEach (parallelismThreshold，action): 这 是 要 在 并 发 应 用 程序 中 使 用 的 版 本 。 如 

果 map 的 元 素 多 于 第 一 个 参数 指定 的 数目 ， 该 方法 将 以 并 行 方 式 执行 。 

口 forEachEntry (parallelismThreshold，action): 该 版 本 与 上 一 版 本 相似 ， 只 不 过 在 
该 版 本 中 Action 是 Consumer 接口 的 一 个 实现 ， 它 接收 一 个 Map .Entry 对 象 作 为 参数 ， 其 中 
含有 元 素 的 键 和 值 。 这 种 情况 下 也 可 以 使 用 一 个 lambda 表达 式 。 

口 forEachKey (parallelismTrhreshold，action) : 该 版 本 与 前 一 版 本 相似 ， 只 不 过 在 这 

种 情况 下 Action 仅 应 用 于 concurrentHashMap 的 键 。 

口 forEachVvalue (parallelismThreshold，action): 该 版 本 与 前 一 版 本 相似 ， 只 不 过 在 
这 种 情况 下 Action 仅 应 用 于 concurrentHashMap 的 值 。 

当前 的 实现 采用 公共 的 ForkJoinPool 实例 执行 并 行 任务 。 
@ search() 方 法 
该 方法 对 concurrentHashMap 的 所 有 元 素 均 应 用 一 个 搜索 函数 。 该 搜索 函数 可 以 返回 一 个 空 

或 者 一 个 不 同 于 null 的 值 。search () 方 法 将 返回 搜索 函数 所 返回 的 第 一 个 非 空 值 。 该 方法 接收 两 个 

口 parallelismThreshold: 如 果 map 的 元 素 比 该 参数 指定 的 数目 多 ， 该 方法 将 以 并 行 方式 执 

行 。 

口 searchFunction: 这 是 BiFunction 接口 的 一 个 实现 ， 可 以 表示 为 一 个 lambda 表达 式 。 该 
函数 接收 每 个 元 素 的 键 和 值 作为 参数 ， 而 且 如 前 所 述 ， 如 果 找 到 了 要 找 的 结果 ， 该 函数 就 必 
须 返 回 一 个 非 空 值 ， 否 则 返回 一 个 空 值 。 

例如 ， 你 可 以 采用 该 函数 查找 第 一 本 含有 某 个 单词 的 书 。 
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ExtendedProduct firstProduct=productsByBuyer.search(100, 
(id, products) -> { 
for (ExtendedProduct product: products) { 
if (product.getTitle() .toLowerCase().contains("java")) { 
return product; 
} 
} 
return null; 
3 
if (firstProduct!=null) { 
System.out .println(firstProduct .getBuyer()+":"+ 
firstProduct .getTitle()); 
} 


本 例 使 用 100 作为 parallelismThreshold, 使 用 一 个 lambda 表达 式 实现 搜索 函数 。 在 该 函数 
中 ,对 于 每 个 元 素 而 言 , 我 们 将 会 处 理 该 列表 中 的 所 有 商品 。 如 果 找 到 了 一 个 含有 单词 java 的 商品 ， 
则 返回 该 商品 。 这 是 由 search () 方 法 返回 的 值 。 最 后 ， 在 控制 台 打 印 该 商品 的 购买 者 和 商品 名 称 。 
该 方法 的 其 他 版 本 还 有 如 下 几 种 。 
口 searchEntries (parallelismThreshold，searchFunction) : 在 这 种 情况 下 ， 搜 索 函 
数 是 Function 接口 的 一 个 实现 ， 接 收 一 个 Map .Entry 对 象 作 为 参数 。 
口 searchKeys (parallelismThreshold，searchFunction): 在 这 种 情况 下 ， 搜索 函数 仅 
应 用 于 concurrentHashMap 的 键 。 
口 searchValues (parallelismThreshold，searchFunction): 在 这 种 情况 下 ， 搜索 函数 
仅 应 用 于 concurrentHashMap 的 值 。 
@ reduce() 方 法 
该 方法 和 Stream 框架 提供 的 reduce () 方 法 相似 , 但 是 在 这 种 情况 下 , 你 将 直接 对 Concurrent- 
HashMap 的 元 素 进 行 操 作 。 该 方 i 下 三 个 参数 。 
DQ parallelismThreshold: 如 果 ConcurrentHashMap 的 元 素数 多 于 该 参数 所 指定 的 数目 ， 
该 方法 将 以 并 行 方式 执行 。 
口 transformer: 该 参数 是 BiFunction 接口 的 一 个 实现 ， 可 以 表示 为 一 个 lambda 函数 。 它 接 
收 一 个 键 和 一 个 值 作 为 参数 ， 并 且 返 回 这 些 元 素 的 转换 结 
口 reducer: 该 参数 是 BiFunction 接口 的 一 个 实现 ， 也 可 以 表示 为 一 个 lambda 函数 。 它 接收 
由 转换 器 荫 数 返回 的 两 个 对 象 作为 参数 。 该 函数 的 目标 是 将 这 两 个 对 象 组 合成 一 个 对 象 。 
作为 该 方法 的 例子 之 一 ， 我 们 将 获取 一 个 评论 取 值 为 1( 最 坏 情 况 ) 的 商品 列表 。 本 例 用 到 了 两 
个 辅助 变量 。 第 一 个 是 transformer。 它 是 一 个 BiFunction 接口 ， 用 作 reduce() 方 法 的 
tramsformer 元 素 。 


BiFunction<String, List<ExtendedProduct>, List<ExtendedProduct>> 
transformer = (key, value) ->value.stream() .filter(product -> 
product .getValue() == 1) .collect (Collectors.toList()); 


该 函数 接收 键 ( 即 用 户 的 ia ) 和 一 个 ExtengdedProduct 对 象 列表 (含有 该 用 户 购买 的 商品 ) 
作为 参数 。 我 们 处 理 该 列表 中 的 所 有 商品 ， 并 且 返 回 评级 为 1 的 商品 。 
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个 列 


表达 
值 作 
换 与 
值 为 


一 个 


第 二 个 变量 是 约 简 器 BinaryOperator, 作为 reduce() 方 法 的 约 简 器 函数 。 


BinaryOperator<List<ExtendedProduct>> reducer = (listl1l, lJist2) ->{ 
list1l.addAll (list2); 
return listl; 


下 

该 约 简 需 接收 两 个 ExtendedProduct 列表 作为 参数 ， 并 且 使 用 adadqall () 方 法 将 它们 连接 成 一 
表 。 

现在 ， 只 需要 实现 对 reduce() 方 法 的 调用 。 


List<ExtendedProduct> badReviews=productsByBuyer.reduce(10, 
transformer, reducer); 


badReviews.forEach(product -> { 
System.out .println(product.getTitle()+":"+ 
product .getBuyer()+":"+product .getValue ()); 
2 


还 有 其 他 一 些 版 本 的 reduce ( ) 方 法 。 

口 reduceFntries()、 reduceFntriesToDouble()、reduceEntriesToInt () 和 reduceEntries- 
ToLong () : 对 于 这 些 情况 ， 转 换 器 函数 和 约 简 器 函数 都 针对 Map .Entry 对 象 进行 处 理 。 后 
i 一 个 aouble、 一 个 int 和 一 个 1ong 值 。 

D reduceKeys ()、reduceKeysToDouble()、reduceKeysToInt () 和 reduceKeysToLong (): 
对 于 这 些 情 况 ， 转 换 器 函数 和 约 简 器 函数 都 针对 map 的 键 进行 处 理 。 后 三 个 版 本 的 方法 分 别 
返回 一 个 aouble、 一 个 int 和 一 个 1ong 值 。 

口 reduceToInt () 、reduceToDouble() 和 reduceToLong(): 对 于 这 些 情况 ,转换 磊 明 数 
pe 键 和 值 进 行 处 理 ， 而 约 简 器 方法 分 别针 对 int 、double 和 long 数值 进行 处 理 。 这 些 方 

法 分 别 返 回 一 个 int、 一 个 double 和 一 个 1ong 值 。 

口 reduceValues ()、reduceValuesToDouble()、reduceValuesToInt () 和 reduceValues- 
ToLong () : 对 于 这 些 情况 ， 转 换 器 函数 和 约 简 器 函数 都 针对 map 的 值 进行 处 理 。 后 三 个 版 
double、 一 个 int 和 一 个 long 值 。 

@ compute() 方 法 

该 方法 (在 Map 接口 中 定义 ) 接 收 一 个 元 素 的 键 和 BiFunction 接口 的 一 个 实现 ( 可 以 用 lambda 

式 表示 ) 作为 参数 。 如 果 元 素 的 键 存在 于 ConcurrentHashMap 中 , 则 该 函数 将 接收 元 素 的 键 和 

为 参数 ,否则 将 接收 空 值 作为 参数 。 如 果 该 函数 返回 的 值 存在 ,该 方法 将 用 该 函数 返回 的 值 来 替 

该 键 相 关 的 值 ; 如 果 该 函数 返回 的 值 不 存在 ， 则 将 该 值 插 入 到 concurrentHashMap; 如 果 返 回 

nul1l， 则 说 明 当 前 项 已 存在 ， 那 么 就 删除 当前 项 。 请 注意 ,在 BiFunction 执行 期 间 ， 将 锁 闭 

或 几 个 map 记录 。 因 此 ,BiFunction 的 执行 时 间 不 应 过 长 ， 而 且 不 应 该 尝试 更 新 同一 map 中 的 


任何 其 


和 每 
商品 


他 记录 ， 否 则 可 能 会 出 现 死 锁 。 

例如 ， 我 们 在 使 用 该 方法 时 ， 可 以 采用 Java 8 中 引入 的 名 为 LongAdger 新 型 原子 变量 ， 以 计算 
每 个 商品 相关 的 差 评 数量 。 我 们 创建 了 一 个 新 的 concurrentHashMap， 名 为 counter。 它 的 键 是 
的 名 称 ， 值 为 LongAdgder 类 的 一 个 对 象 ， 用 于 计算 每 个 商品 有 多 少 差 评 。 
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ConcurrentHashMap<String, LongAdder> counter=new ConcurrentHashMap<>(); 


我 们 处 理 前 面 计算 得 到 的 所 有 badReviewsConcurrentLinkedDeque 元 素 ， 并 且 使 用 compute () 
方法 来 创建 和 更 新 与 每 个 商品 相关 的 LongAdder。 


badReviews.forEach(product -> { 
counter.computeIfAbsent (product .getTitle(), title -> new 
LongAdder ()) .increment () ; 


}): 2 
counter.forEach((title, count) -> { 
System.out .println(title+":"+count); 


记 

最 后 ， 将 结果 输出 到 控制 台 。 

2. concurrentHashMap 的 另 一 个 例子 

ConcurrentHashMap 类 中 还 增加 了 另 一 个 方法 , 它 也 是 Map 接 口中 定义 的 方法 ,这 就 是 merge () 
方法 ， 它 可 以 将 一 个 ( 键 ， 值 ) 对 合并 到 map。 如 果 concurrentHashMap 中 不 存在 该 键 ， 则 直接 插入 
该 键 。 如 果 concurrentHashMap 中 存在 该 键 , 则 需要 定义 新 旧 两 个 键 中 究竟 哪 一 个 应 该 与 新 值 相关 
联 。 该 方法 接收 三 个 参数 。 


口 要 合并 的 键 。 
口 要 合并 的 值 。 
口 可 表示 为 一 个 lambda 表达 式 的 BiFunction 的 实现 。 该 函数 接收 与 该 键 相关 的 旧 值 和 新 值 作 


为 参数 。 该 方法 将 该 函数 返回 的 值 与 该 键 关联 。BiFunction 执行 时 对 map 进行 部 分 锁定 ， 

这 样 可 以 保证 同一 个 键 不 会 被 并 发 执行 。 

例如 ， 我 们 按照 评论 的 年 份 字 段 对 前 面 用 到 的 亚马逊 的 20 000 个 商品 进行 了 划分 。 对 于 每 一 年 ， 

均 加 载 ConcurrentHashMap, 其 键 为 商品 , 而 其 值 为 评论 列表 。 这 样 , 便 可 以 通过 下 述 代码 加 载 1995 
年 和 1996 年 的 评论 。 


Path path=Paths.get ("data\\amazon\\1995.txt"); 

ConcurrentHashMap<BasicProduct, ConcurrentLinkedDeque<BasicReview>> 
products1995=BasicProductLoader.1load (path); 

showData (products1995)，; 


path=Paths.get ("data\\amazon\\1996.txt"); 

ConcurrentHashMap<BasicProduct,ConcurrentLinkedDeque<BasicReview>> 
products1996=BasicProductLoader.1load (path); 

System.out.println(products1996.size()); 

showData (products1996); 


如 果 想 将 两 个 concurrentHashMap 合并 为 一 个 ， 则 可 以 使 用 下 面 的 代码 。 


products1996.forEach(10, (product, reviews) -> { 
products1995.merge (product, reviews, (reviewsl1l, reviews2) -> { 
System.out .println("Merge for: "+product.getAsin()); 
reviewsl.addAll (reviews2); 
return reviewsl; 
ss; 
3 
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我 们 处 理 Products1996 concurrentHashMap 的 所 有 元 素 ， 并 且 对 每 个 ( 键 ， 值 ) 对 都 调用 
Products1995 ConcurrentHashMap 的 merge () 方 法 。merge 函数 将 接收 两 个 评论 列表 ， 这 样 我 们 只 
需 将 它们 连接 成 一 个 列表 即 可 。 

3. 一 个 采用 concurrentLinkedDeque 类 的 例子 

Collection 接口 也 引入 了 Java 8 中 的 一 些 新 方法 。 大 多 数 并 发 数据 结构 都 实现 了 该 接口 ， 因 此 
可 以 通过 它们 使 用 这 些 新 特性 。 其 中 两 种 方法 是 stream() 和 parallelstream(), 它们 在 第 8 章 和 
第 9 章 中 都 已 经 用 到 。 下 面 看 看 如 何 使 用 男 外 两 种 方法 , 这 要 用 到 前 面 章节 已 提 到 的 含有 20000 个 商 


品 的 ConcurrentLinkedDeque。 


@ removeIf() 方 法 

该 方法 在 collection 接口 中 有 一 个 默认 实现 , 它 是 非 并 发 的 而 且 并 没有 被 ConcurrentLinked- 
Deque 类 重 载 。 该 方法 接收 一 个 Predicate 接口 的 实现 作为 参数 ， 这 样 就 会 接收 collection 中 的 
一 个 元 素 作 为 参数 ， 而 且 应 该 返回 一 个 true 或 false 值 。 该 方法 将 处 理 collection 中 的 所 有 元 
素 ， 而 且 当 谓词 取 值 为 true 时 将 删除 这 些 元 素 。 

例如 ， 如 果 要 删除 所 有 销售 排名 高 于 1000 的 商品 ， 可 以 使 用 下 面 的 代码 。 


System.out .Println("Prodqucts: "+productList.size()); 
productList.removeIf (product -> product.getSalesrank() > 1000) 
System.out .Drintln("Prodqucts; "+productList.size()); 
productList.forEach(product -> { 
System.out .println(product.getTitle()+": "+ 
product .getSalesrank ()); 


I 

@ spliterator() 方 法 

该 方法 返回 Spliterator 接口 的 一 个 实现 。 一 个 spliterator 定义 了 可 被 stream API 使 用 的 数据 
源 。 需 要 直接 使 用 spliterator 的 情况 很 少 , 但 是 有 时 可 能 希望 创建 自己 的 spliterator 来 为 流产 生 一 个 定 
制 的 源 〈 例如， 如 果实 现 了 自己 的 数据 结构 )。 如果 有 自己 的 spliterator 实现 , 可 以 使 用 Streamsupport . 
sttream(mySpliterator，isParallel) 在 其 之 上 创建 一 个 流 。 其 中 ，isParallel 是 一 个 布尔 值 ， 
决定 了 要 创建 的 流 是 否 为 并 行 流 。spliterator 在 某 种 意义 上 很 像 迭 代 器 ， 可 用 来 遍历 集合 中 的 所 有 元 
素 , 但 你 可 以 对 元 素 进行 划分 ， 从 而 以 并 发 的 方式 进行 遍历 操作 。 

一 个 spliterator 具有 8 个 定义 其 行为 的 不 同 特征 。 
口 CONCURRENT: 可 以 安全 地 以 并 发 方式 对 spliterator 源 进行 修改 。 
口 DISTINCT: spliterator 所 返回 的 所 有 元 素 均 不 相同 。 
口 IMMUTABLE: spliterator 源 无 法 被 修改 。 
口 NONNULL: spliterator 不 返回 null 值 。 
口 ORDERED: spliterator 所 返回 的 元 素 是 经 过 排序 的 ( 这 意味 着 它们 的 顺序 很 重要 ) 。 
口 SIZED: spliterator 可 以 使 用 estimatesize () 方 法 返回 确定 数目 的 元 素 。 
口 SORTED: spliterator 源 经 过 了 排序 。 
口 sUBSIZED: 如 果 使 用 trysplit () 方 法 分 割 该 spliterator， 产 生 的 spliterator 将 是 SIZED 和 

SUBSIZED 的 。 


体检 
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该 接口 最 有 用 的 方法 是 如 下 几 种 。 

口 estimatedSize(): 该 方法 将 返回 spliterator 中 元 素数 的 估计 值 。 

口 forEachRemaining() : 该 方法 允许 你 将 一 个 consumer 接口 的 实现 ( 可 以 表示 为 一 个 

lambda 函数 ) 应 用 到 spliterator 尚未 进行 处 理 的 元 素 。 

口 tryAdvance () : 该 方法 接收 一 个 Cconsumer 接口 的 实现 (可 以 表示 为 一 个 lambda 函数 ) 作 
为 参数 。 它 选取 spliterator 中 的 下 一 个 元 素 , 使 用 consumer 实现 进行 处 理 并 返回 true 值 。 
如 果 spliterator 再 没有 要 处 理 的 元 素 ， 则 它 返 回 false 值 。 

口 trySplit () : 该 方法 尝试 将 spliterator 分 割 成 两 个 部 分 。 作 为 调用 方 的 spliterator 将 处 理 其 中 
的 一 些 元 素 ， 而 返回 的 spliterator 将 处 理 男 一 些 元 素 。 如 果 该 spliterator 是 ORDERED， 则 返回 
的 spliterator 必须 按照 严格 排序 处 理 元 素 ， 而 且 调用 方 也 必须 按 该 严格 排序 处 理 。 
口 hascharacteristics() : 该 方法 允许 你 检查 spliterator 的 属性 。 
下 面 看 一 个 关于 该 方法 的 例子 ， 这 里 要 用 到 含有 20 000 个 商品 的 ArrayList 数据 结构 。 
首先 ， 我们 需要 一 个 辅助 任务 ， 它 将 对 一 个 商品 集合 进行 处 理 ， 将 它们 的 名 称 转换 成 小 写 形式 。 
该 任务 将 采用 一 个 spliterator 作为 属性 。 


public class SpliteratorTask implements Runnable { 


4 


private Spliterator<Product> spliterator; 


public SpliteratorTask (Spliterator<Product> spliterator) { 
this.spliterator=spliterator; 


} 


@Override 
DUBLLe vord T(t 
int counter=0; 
while (spliterator.tryAdvance (product -> { 
product .setTitle(product .getTitle() .toLowerCase()); 
})) { 
Counter++; 
3 
System.out .println(Thread.currentThread() .getName () 
+":"+Counter); 


} 
正如 你 所 看 到 的 ， 当 该 任务 完成 执行 时 ， 它 将 输出 已 处 理 的 商品 数量 。 
在 主 方法 中 ,一 旦 将 20 000 个 商品 加 载 到 concurrentLinkedoueue ,就 可 以 得 到 一 个 Spliterator ， 
检查 它 的 一 些 属性 ， 并 且 查 看 其 估计 规模 。 


Spliterator<Product> splitl=productList.spliterator(); 

System.out .println(spliti.hasCharacteristics (Spliterator.CONCURRENT)); 
System.out .println(spliti.hasCharacteristics (Spliterator.SUBSIZED)); 
System.out .println(splitli.estimateSize()); 


11.1 并 发 数据 结构 251 


然后 ， 使 用 trysplit () 方 法 来 分 割 该 spliterator， 并 且 查 看 两 个 spliterator 的 大 小 。 


Spliterator<Product> split2=split1.trySplit(); 
System.out .println(splitl.estimateSize()); 
System.out .println(split2.estimateSize()); 


最 后 ， 可 以 在 一 个 执行 器 中 执行 两 个 任务 ， 其 中 一 个 针对 spliterator， 用 于 查看 每 个 spliterator 是 
否 确实 将 预期 数量 的 元 素 处 理 完毕 。 
ThreadPoolExecutor executor= (ThreadPoolExecutor) 


Executors.newCachedThreadPool (); 
executor.execute(new SpliteratorTask (split1)); 


executor.execute(new SpliteratorTask (split2)); 


在 下 面 的 屏幕 截图 中 ， 你 可 以 看 到 本 例 的 执行 结果 。 


<terminated> ConcurrentSpliteratorMain [java Application] C:\Program Files\Java\yjdk-\b| 
false 

true 

28888 

19669 

196698 
pool-1-thread-1:19666 
pool-1-thread-2:18888 


可 以 发 现 ， 在 分 割 spliterator 之 前 ，estimatedSize() 方 法 如 何 返 回 20 000 个 元 素 。 在 执行 
trySplit () 方 法 之 后 ， 每 个 spliterator 都 有 10 000 个 元 素 。 这 些 就 是 每 个 任务 所 处 理 的 元 素 。 


11.1.4 ”原子 变量 


原子 变量 是 在 Java 1.5 中 引入 的 ,用 于 提供 针对 ijnteger、long、boolean.reference 和 Array 
对 象 的 原子 操作 。 它 们 提供 了 一 些 方法 来 递增 值 、 递 减 值 、 确 定 值 、 返 回 值 ， 或 者 在 其 当前 值 等 于 预 
定义 值 时 确定 值 。 原 子 变 量 提供 了 与 volatile 关键 字 相 似 的 保障 。 

Java 8 中 增加 了 四 个 新 类 ， 即 DoubleAccumulator、DoubleAdder 、LongAccumulator 和 
LongAgder。 在 前 一 节 中 ， 我们 使 用 Zongadqaer 类 计算 了 商品 的 差 评 数 。 该 类 提供 了 与 AtomicLong 
相似 的 功能 , 但 是 当 经 常 更 新 来 自 不 同 线程 的 累加 操作 并 且 只 需要 在 操作 的 末端 给 出 结果 时 ,该 类 具有 
更 好 的 性 能 。DoubleAgder 函数 与 之 类 似 ， 只 不 过 针对 double 值 。 这 两 个 类 的 主要 目标 都 是 为 了 给 
出 一 个 不 同 的 线程 可 以 以 一 致 的 方式 对 其 更 新 的 计数 器 。 这 些 类 当中 最 重要 的 方法 包括 如 下 几 种 。 

口 aaa () : 为 计数 器 增加 参数 中 指定 的 值 。 
口 increment () : 相当 于 adg (1)。 

口 gecrement () : 相当 于 add(-1) 。 

口 sum() : 该 方法 返回 计数 器 的 当前 值 。 

请 注意 ，Doubleadqaer 类 并 没有 increment () 和 decrement () 方 法 。 

LongAccumulator 类 和 LongAdger 类 很 类 似 , 但 是 它们 也 有 一 个 非常 明显 的 区 别 。 它们 都 有 一 
个 可 以 指定 如 下 两 个 参数 的 构造 函数 。 

口 内 部 计数 器 的 标识 值 。 
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D 一 个 将 新 值 累加 到 累加 器 的 函数 。 

要 注意 的 是 ， 该 函数 并 不 依赖 于 累加 的 顺序 。 在 这 种 情况 下 ， 最 重要 的 方法 就 是 如 下 两 种 。 

口 accumulate() : 该 方法 接收 一 个 1ong 值 作为 参数 。 它 应 用 函数 对 计数 器 进行 递增 或 递减 操 
作 ， 使 之 成 为 当前 值 和 参数 指定 值 。 

D get () : 返回 计数 器 的 当前 值 。 

例如 ， 下 面 的 代码 执行 完毕 后 会 将 362 880 输出 到 控制 台 。 


LongAccumulator accumulator=new LongAccumulator( (x,y) -> x*y, 1); 


IntStream.range(1, 10) .parallel() .forEach(x -> accumulator 
.accumulate (X) ) ; 
System.out .println(accumulator.get ()); 


在 累加 器 中 使 用 交换 运算 ,这 样 对 于 任意 输入 顺序 ， 其 输出 结果 均 相同 。 
11.1.5 ”变量 句柄 


变量 句柄 ( variable handle ) 是 一 种 对 变量 、 静 态 域 或 数组 元 素 的 动态 型 引用 ,使 你 可 以 多 种 不 同 
的 模式 访问 该 变量 。 例 如 ， 可 以 在 并 发 应 用 程序 中 对 变量 进行 访问 保护 ， 实 现 对 该 变量 的 原子 访问 。 
在 此 之 前 ， 你 只 能 通过 原子 变量 获得 这 样 的 行为 ， 但 是 现在 可 以 使 用 变量 句柄 获得 同样 的 功能 ， 而 不 
需要 采用 任何 同步 机 制 。 
这 是 Java 9 中 引入 的 一 种 新 特性 ， 由 VarHandle 类 提供 。 变 量 句柄 有 如 下 几 种 访问 方法 。 
口 读 取 访问 模式 : 根据 不 同方 法 ， 该 模式 允许 按照 不 同 的 内 存 排序 规则 读 取 变量 的 值 。 你 可 以 
使 用 get ()、getvolatile()、getAcquire() 和 getOpaque() 方 法 读 取 变量 的 值 。 第 一 
种 方法 将 变量 视 为 非 易 失 性 变量 读 取 。 第 二 种 方法 将 变量 作为 易 失 性 变量 来 读 取 。 第 三 种 方 
法 确保 对 该 变量 的 其 他 访问 在 该 语句 之 前 不 会 因为 优化 方面 的 原因 而 重新 排序 。 而 最 后 一 种 
方法 与 第 三 种 类 似 ， 但 是 它 仅 对 当前 线程 有 影响 。 
口 写 入 访问 模式 : 根据 方法 不 同 ， 该 模式 允许 你 按照 不 同 的 内 存 排 序 规则 写 人 变量 的 值 。 可 以 
使 用 set () 、setvolatile() 、setRelease() 和 setopaque() 方 法 。 它 们 与 前 面 读 取 访 
问 模 式 中 的 方法 相对 应 ， 只 不 过 是 针对 写 人 访问 的 。 
口 原子 更 新 访问 模式 : 这 种 模式 获得 与 原子 变量 类 似 的 功能 和 操作 ， 例 如 比较 变量 的 值 。 你 可 
以 使 用 下 述 方法 。 
上 compareAndSet () : 如 果 作 为 参数 传递 的 预期 值 和 变量 的 当前 值 相等 , 那么 改变 变量 的 值 ， 
就 像 变 量 是 被 声明 为 易 失 性 变量 一 样 。 

加 weakCompareAndSet () 和 weakCompareAndSetPlain(): 如 果 作为 参数 传递 的 预期 值 与 
变量 的 当前 值 相等 , 那么 自动 将 变量 的 当前 值 蔡 换 为 新 值 。 第 一 种 法 将 变量 视 为 一 个 易 失 性 
变量 ， 而 第 二 种 法 将 变量 视 为 一 个 非 易 失 性 变量 。 

口 数值 型 原子 更 新 访问 模式 : 这 种 模式 以 原子 方式 修改 数值 。 你 可 以 使 用 下 面 的 方法 。 
和 getaAndaAdd () : 增加 变量 的 值 并 且 返 回 之 前 的 值 ， 因 为 该 变量 被 原子 自动 声明 为 一 个 易 失 


性 变量 。 


11.1 并 发 数据 结构 253 


口 位 原子 更 新 访问 模式 : 这 种 模式 以 原子 方式 按 位 修改 值 。 你 可 以 使 用 getandBitwiseor () 
或 者 getAndBitwiseAnd() 方 法 。 
例如 ,可 用 一 个 名 为 VarHandleData 的 类 , 它 有 名 为 safevalue 和 unsafevalue 的 两 个 属性 。 


public class VarHandleData { 
public double safeValue; 
public double unsafeValue; 


} 

下 面 实现 一 个 含有 10 个 线程 的 例子 ， 并 发 更 新 这 两 个 属性 的 值 。 我们 将 使 用 VarHandle 直接 更 
新 safevalue 属性 和 unsafevalue 属性 的 值 。 

创建 一 个 对 象 某 个 域 的 varHandle 对 象 的 最 简单 方式 是 使 用 MethodHandles 类 中 的 静态 方法 
lookup () 。 该 方法 会 返回 一 个 MethodHandles .Lookup 工厂 对 象 ， 它 用 于 创建 MethodHandles。 
然后 ， 使 用 in () 方 法 获得 一 个 面向 当前 类 ( 这 里 是 VarHandleData ) 的 MethodqHandles。 最 后 ， 
使 用 finqvarHandle () 方 法 获取 对 象 varHandle， 以 访问 对 象 的 域 。 

例如 ,如 果 想 要 使 用 VarHandle 访问 VarHandleData 对 象 的 safevalue 属性 , 可 以 采用 下 述 


handler = MethodHandles.lookup().in(VarHandleData.class) 
.findVarHandle (VarHandleData.class, 
"safeValue", double.class); 


因此 ， 我 们 实现 一 个 名 为 VarHandleTask 的 类 ,该 类 实现 了 Runnable 接口 ， 它 可 以 增加 和 减 
少 varHandleData 对 象 的 两 个 属性 的 值 。 如 前 所 述 , 我 们 使 用 varHandle 对 象 访问 safevalue 属 
性 (通过 getanqaqdq () 方 法 )， 并 且 直 接 修 改 unsafevalue 属性 。 


public class VarHandleTask implements Runnable { 
private VarHandleData data; 
public VarHandleTask (VarHandleData data) { 
this.data = data; 
} 
@Override 
BUBLIG ~ VOLG. Tun) 和 
VarHandle handler; 
try { 
handler = MethodHandles.lookup().in(VarHandleData.class) 
.findVarHandle (VarHandleData.class, 
"safeValue", double.class); 


for (int i = 0; i < 10000; I++) { 
handler.getAndAdd (data, +100); 
data.unsafeValue += 100; 
handler.getAndAdd (data, -100); 
data.unsafeValue -= 100; 
} 
} catch (NoSuchFieldException | IllegalAccessException e) { 
e.printStackTrace(); 
} 
} 
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最 后 , 实现 VarHandleMain 类 , 该 类 创建 一 个 VarHandleData 对 象 和 10 个 并 发 更 新 则 一 对 象 


的 VarHandleTasks。 


public class VarHandleMain { 
public static void main(String[] args) { 
VarHandleData data = new VarHandleData(); 
for (int i=0; i<10; i++) { 
VarHandleTask task=new VarHandleTask (data); 
ForkJoinPool.commonPool () .execute (task); 


} 


ForkJoinPool.commonPool () .shutdown (); 


try { 
ForkJoinPool.commonPool () .awaitTermination(1, TimeUnit.DAYS); 
} catch (InterruptedException e) { 
// 自动 生成 的 catch 代码 块 
e.printStackTrace(); 


} 


System.out .println("Safe Value: "+data.safeValue); 
System.out .println("Unsafe Value: "+data.unsafeValue); 
} 
} 


执行 本 例 时 , 将 看 到 如 何 使 safevalue 属性 的 值 总 如 预期 一 样 为 0, 但 是 unsafevalue 属性 的 
值 每 次 执行 时 都 不 同 ， 因 为 会 遇 到 数据 竞争 条 件 。 


11.2 同步 机 制 | 


任务 的 同步 机 制 是 任务 之 间 为 得 到 预期 结果 而 进行 的 协调 。 在 并 发 应 用 程序 中 , 有 两 种 同步 机 制 。 

口 进程 同步 : 想 要 控制 任务 的 执行 顺序 时 ， 就 可 以 使 用 这 种 同步 。 例 如 ， 一 个 任务 必须 等 待 另 

一 任务 终止 才 开始 执行 。 

口 数据 同步 : 当 两 个 或 多 个 任务 访问 同一 内 存 对 象 时 ， 可 以 使 用 这 种 同步 。 在 这 种 情况 下 ， 必 
须 保护 写 入 操作 对 该 对 象 的 访问 权限 。 如 果 不 这 样 做 ， 就 会 出 现 数据 竞争 条 件 ， 一 个 程序 的 
最 终结 果 在 每 次 执行 时 都 不 同 。 

Java 并 发 API 提供 了 多 种 机 制 ， 让 你 可 以 实现 上 述 两 种 类 型 的 同步 。Java 语言 提供 的 最 基本 的 同 

步 机 制 是 synchronized 关键 字 。 该 关键 字 可 应 用 于 其 个 方法 或 者 某 个 代码 块 。 对 于 第 一 种 情况 , 一 

次 只 有 一 个 线程 可 以 执行 该 方法 。 对 于 第 二 种 情况 ， 要 指定 一 个 对 某 个 对 象 的 引用 。 在 这 种 情况 下 ， 

同时 只 能 执行 被 某 一 对 象 保护 的 一 个 代码 块 。 

Java 也 提供 了 其 他 一 些 同 步 机 制 。 

口 Lock 接口 及 其 实现 类 : 该 机 制 允许 你 实现 一 个 临界 段 ， 保 证 只 有 一 个 线程 执行 该 代码 块 。 

口 Semaphore 类 实现 了 由 Edsger Dijkstra 提出 的 著名 的 信号 量 同 步 机 制 。 

口 CountDownLatch 允许 你 实现 这 样 的 场景 : 一 个 或 多 个 线程 等 待 其 他 线程 结束 。 

口 cyclicBarrier 允许 你 将 不 同 的 任务 同步 到 某 个 共同 的 节点 。 

口 Phaser 类 允许 你 分 为 多 个 阶段 实现 并 发 任务 。 第 6 章 中 已 经 详细 介绍 了 这 种 机 制 。 
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口 Exchanger 允许 你 在 两 个 线程 之 间 实 现 一 个 数据 交换 点 。 

口 completableFuture 是 Java 8 的 新 特性 ， 它 扩展 了 执行 器 任务 的 Future 机 制 ， 以 一 种 异步 方 
式 生成 任务 的 结果 。 可 以 指定 任务 在 结果 生成 之 后 执行 ， 这 样 就 可 以 控制 任务 的 执行 顺序 。 

下 面 将 介绍 如 何 使 用 这 些 机 制 ， 着 重 讲述 Java 8 中 引入 的 completableFuture 机 制 。 


11.2.1 commonTask 类 


我 们 实现 了 一 个 名 为 CommonTask 的 类 。 该 类 将 在 随机 的 一 段 时 间 (0 到 10 秒 ) 内 将 调用 线程 
休 眼 。 其 源 代码 如 下 。 


public class CommonTask { 


public static void doTask() { 
long duration = ThreadLocalRandom.current () .nextLong (10); 
System.out .printf("%$s-%s: Working %d seconds\n", 
new Date(),Thread.currentThread() .getName(), 
duration); 
tr 
TimeUnit.SECONDS.sleep (duration); 
} catch (InterruptedException e) { 
e.printSstackTrace(); 
} 
} 


} 
以 下 各 节 中 实现 的 所 有 任务 都 要 用 该 类 来 模拟 其 执行 时 间 。 


11.2.2 Lock 接口 


最 基本 的 一 种 同步 机 制 就 是 Lock 接口 及 其 实现 类 。 基 本 实现 类 是 ReentrantLock 类 。 可 以 方 
便 地 使 用 该 类 实现 一 个 临界 段 。 例 如 ， 下 面 的 任务 在 代码 的 第 一 行使 用 lock () 方 法 获得 了 一 个 锁 ， 
并 且 在 代码 的 最 后 一 行使 用 unlock () 方 法 释放 了 该 锁 。 你 必须 在 finally 部 分 调用 unlock () 方 法 
以 避免 出 现 问题 。 和 否则 ， 如 果 抛 出 异常 ， 则 该 锁 将 不 被 释放 ,会 出 现 死 锁 。 同 时 只 有 一 个 任务 可 以 执 
行 这 两 条 语句 之 间 的 代码 。 


public class LockTask implements Runnable { 


private static ReentrantLock lock = new ReentrantLock(); 
private String name; 


public LockTask (String name) { 
this.name=name; 


} 


@Override 
public void run() { 
try { 


Dan 
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System.out .println("Task: " + name + "; Date: " + new Date() 
+ ": Running the task"); 
CommonTask.doTask (); 
System.out .println("Task: " + name + "; Date: " + new Date() 
+ ": The execution has finished"); 
} finally { 


lJock.unlock(); 


} 
你 可 以 对 此 进行 验证 ， 例 如 ， 使 用 下 述 代码 在 一 个 执行 器 中 执行 10 个 任务 。 


public class LockMain { 


public static void main(String[] args) { 
ThreadPoolExecutor executor= (ThreadPoolExecutor) 
Executors.newCachedThreadPool ();，; 
for (int i=0; i<10; i++) { 
executor.execute(new LockTask ("Task "+i)); 
下 


executor.shutdown(); 
try { 
executor.awaitTermination(1, TimeUnit.DAYS); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 
在 下 图 中 可 以 看 到 执行 该 例 的 结果 。 你 会 发 现 如 何 一 次 只 执行 一 个 任务 。 


wT se 
<terminated> LockMain [Java Application] C:\Program FilesVavaNjdk-9%\binWavaw.exe (12 abr. 2017 1: 00:27| 
Task: Task 8; Date: Wed Apr 12 91:069:28 CEST 2817: Running the task 

Wed Apr 12 91:99:29 CEST 2817-pool-1-thread-1: Working 3 seconds 

Task: Task 8; Date: Wed Apr 12 81:88:32 CEST 2817: The execution has finished 
Task: Task 1; Date: Wed Apr 12 81:880:32 CEST 2817: Running the task 

Wed Apr 12 91:69:32 CEST 2817-pool-1-thread-2: Working 7 seconds 

Task: Task 1; Date: Wed Apr 12 91:99:39 CEST 2817: The execution has finished 
Task: Task 2; Date: Wed Apr 12 91:699:39 CEST 2617: Running the task 

Wed Apr 12 91:96:39 CEST 2817-pool-1-thread-3: Working 3 seconds 

Task: Task 2; Date: Wed Apr 12 91:968:42 CEST 2817: The execution has finished 
Task: Task 4; Date: Wed Apr 12 91:699:42 CEST 2817: Running the task 

Wed Apr 12 91:99:42 CEST 2817-pool-1-thread-5: Working 1 seconds 

Task: Task 4; Date: Wed Apr 12 81:88:43 CEST 2817: The execution has finished 
Task: Task 6; Date: Wed Apr 12 91:99:43 CEST 2817: Running the task 


11.2.3” Semaphore 类 


Pp 


信号 量 机 制 是 Edsger Dijkstra 于 1962 年 提出 的 , 用 于 控制 对 一 个 或 多 个 共享 资源 的 访问 。 该 机 制 
基于 一 个 内 部 计数 器 以 及 两 个 名 为 wait () 和 signal () 的 方法 。 当 一 个 线程 调用 了 wait () 方 法 时 ， 
如 果 内 部 计数 器 的 值 大 于 0， 那 么 信号 量 对 内 部 计数 器 做 递减 操作 ， 并 且 该 线程 获得 对 该 共享 资源 的 
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访问 。 如 果 内 部 计数 器 的 值 为 0， 那 么 线程 将 被 阻塞 ， 直 到 某 个 线程 调用 singal () 方 法 为 止 。 当 一 
个 线程 调用 了 signal() 方 法 时 ,信号 量 将 会 检查 是 否 有 某 些 线程 处 于 等 待 状态 (它们 已 经 调用 了 
wait () 方 法 )。 如 果 没 有 线程 等 待 ， 它 将 对 内 部 计数 器 做 递增 操作 。 如 果 有 线程 在 等 待 信号 量 ， 就 获 
取 这 其 中 的 一 个 线程 ， 该 线程 的 wait () 方 法 结束 返回 并 且 访 问 共享 资源 。 其 他 线程 将 继续 等 待 ， 直 
到 轮 到 自己 为 止 。 

在 Java 中 ， 信 号 量 在 Semaphore 类 中 实现 。wait () 方 法 被 称 作 acquire(), 而 signal() 方 
法 被 称 作 release()。 例 如 ， 在 本 例 中 便 用 到 了 一 个 采用 Semaphore 类 保护 其 代码 的 任务 。 


public class SemaphoreTask implements Runnablel 
private Semaphore semaphore; 
public SemaphoreTask (Semaphore semaphore) { 
this.semaphore=semaphore; 
} 
@Override 
public voidq run() { 
try { 
semaphore.acquire(); 
CommonTask.doTask (); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} finally { 
semaphore.release(); 


} 
} 
} 
在 主 程序 中 执行 了 10 个 任务 ,它们 共享 一 个 semaphore 类 。 该 类 使 用 两 个 共享 资源 初始 化 ， 这 
和 就 可 以 同时 运行 两 个 任务 。 


public static void main(String[] args) { 


往 


Semaphore semaphore=new Semaphore (2); 
ThreadPoolExecutor executor= (ThreadPoolExecutor) 
Executors.newCachedThreadPool (); 


for (int i=0; i<10; I++) { 
executor.execute(new SemaphoreTask (semaphore)); 


} 


executor.shutdown(); 
try { 
executor.awaitTermination(1, TimeUnit.DAYS); 
} catch (InterruptedException e) { 
e.printSstackTrace(); 
} 
} 


下 面 的 屏幕 截图 展示 了 该 例 的 执行 结果 。 可 以 看 出 有 两 个 任务 在 同时 运行 。 
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<tenminated> SemaphoreMain [java Application] C:\Program FilesVava\jdk-Mbin\javaw.e 
Wed Apr 12 81:83:17 CEST 2817-pool-1-thread-2: Working 9 seconds 
Wed Apr 12 81:83:17 CEST 2817-pool-1-thread-1: Working 5 seconds 
Wed Apr 12 81:83:23 CEST 2817-pool-1-thread-3: Working 6 seconds 
Wed Apr 12 81:83:27 CEST 2817-pool-1-thread-4: Working 3 seconds 
Wed Apr 12 91:93:29 CEST 2817-pool-1-thread-5: Working 8 seconds 
Wed Apr 12 81:83:38 CEST 2817-pool-1-thread-6: Working 9 seconds 
Wed Apr 12 81:83:37 CEST 2817-pool-1-thread-7: Working 2 seconds 
Wed Apr 12 81:83:39 CEST 2817-pool-1-thread-8: Working 3 seconds 
Wed Apr 12 81:83:39 CEST 2817-pool-1-thread-9: Working 6 seconds 
Wed Apr 12 81:83:42 CEST 2817-pool-1-thread-18: Working 9 seconds 


11.2.4 CountDownLatch 类 


该 类 提供 了 一 种 等 待 一 个 或 多 个 并 发 任务 完成 的 机 制 。 它 有 一 个 内 部 计数 器 ， 必 须 使 朋 


要 等 待 的 


任务 数 初始 化 。 然 后 ，await () 方 法 休眠 调用 线程 ， 直 到 内 部 计数 器 为 0， 并 且 使 用 countDown () 


方法 对 该 内 部 计数 器 做 递减 操作 。 


例如 ,在 该 任务 中 使 用 countDown () 方 法 对 CountDownLatch 对 象 ( 作为 构造 函数 的 参数 ) 的 


内 部 计数 器 做 递减 操作 。 


public class CountDownTask implements Runnable { 
private CountDownLatch countDownLatch; 


public CountDownTask (CountDownLatch countDownLatch) { 
this.countDownLatch=countDownLatch; 


} 


@Override 

public voidq run() { 
CommonTask.doTask (); 
countDownLatch.countDown(); 


} 


然后 , 在 main() 方 法 中 , 在 执行 器 中 执行 这 些 任务 , 并 且 使 用 countDownLatch 类 的 await () 


方法 等 待 任务 完成 。countDownLatch 对 象 采用 要 等 待 的 任务 数 进行 初始 化 。 


public static void main(String[] args) { 


CountDownLatch countDownLatch=new CountDownLatch(10); 


ThreadPoolExecutor executor= (ThreadPoolExecutor) 
Executors.newCachedThreadPool () ; 


System.out .println("Main: Launching tasks"); 
for (int i=0; i<10; i++) { 
executor.execute(new CountDownTask (countDownLatch)); 


try { 
countDownLatch.await (); 
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} catch (InterruptedException e) { 
e.printStackTrace(); 


} 
System.out. 


executor.shutdown(); 


} 
下 面 的 屏幕 截图 展现 了 本 例 的 执行 结果 。 


<terminated> CountDownMain [Java Application] C:\Program FilesJava\jdk-M\bin\java 
Main: Launching tasks 

Wed Apr 12 91:95:14 CEST 2817-pool-1-thread-6: Working 9 seconds 
Wed Apr 12 81:85:14 CEST 2817-pool-1-thread-8: Working 9 seconds 
Wed Apr 12 81:85:14 CEST 2817-pool-1-thread-4: Working 5 seconds 
Wed Apr 12 91:95:14 CEST 2817-pool-1-thread-2: Working 9 seconds 
Wed Apr 12 91:95:14 CEST 2817-pool-1-thread-1: Working 5 seconds 
Wed Apr 12 81:85:14 CEST 2817-pool-1-thread-9: Working 4 seconds 
Wed Apr 12 81:85:14 CEST 2817-pool-1-thread-5: Working 8 seconds 
Wed Apr 12 81:85:14 CEST 2817-pool-1-thread-3: Working 3 seconds 
Wed Apr 12 81:85:14 CEST 2817-pool-1-thread-16: Working 2 seconds 
Wed Apr 12 91:95:14 CEST 2817-pool-1-thread-7: Working 8 seconds 
Main: Tasks finished at Wed Apr 12 91:95:24 CEST 2817 


11.2.5 cyclicBarrier 类 


该 类 允许 将 一 些 任务 同步 到 某 个 共同 点 。 所 有 的 任务 都 在 该 点 等 待 ， A 
从 内 部 来 看 ， 该 类 还 管理 了 一 个 内 部 计数 器 ， 用 于 记录 尚未 到 达 该 点 的 任务 。 当 一 个 任务 到 达 指 定点 
时 ， 它 要 执行 await () 方 法 以 等 待 其 他 任务 。 当 所 有 任务 都 到 达 时 ，cyc1licBarrier 0 
醒 ， 这 样 就 能 够 继续 执行 。 

当 所 有 的 参与 方 都 到 达 后 ， 该 类 人 允许 执行 另 一 个 任务 。 为 了 实现 这 一 点 ， 要 在 该 对 象 的 构造 函数 
中 指定 一 个 Runnable 对 象 。 

例如 ， 我 们 实现 了 下 面 的 Runnable 接口 ， 它 采用 一 个 cyclicBarrier 对 象 来 等 待 其 他 任务 。 


public class BarrierTask implements Runnable { 


private CyclicBarrier barrier; 


public BarrierTask (CyclicBarrier barrier) { 
this.barrier=barrier; 


} 


@Override 
public voidq run() { 
System.out .println(Thread.currentThread() .getName()+": Phase 1"); 
CommonTask.doTask (); 
try { 
barrier.await (); 
} catch (InterruptedException e) { 
e.printSstackTrace(); 
} catch (BrokenBarrierException e) { 
e.printSstackTrace(); 
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System.out .println(Thread.currentThread() .getName()+": Phase 2"); 


} 
我 们 还 实现 了 另 一 个 Runnable 对 象 ， 当 所 有 的 任务 都 执行 了 await () 方 法 之 后 ， 它 将 被 
CyclicBarrier 执行 。 


public class FinishBarrierTask implements Runnable { 


QOverride 
public void run() { 
System.out .println("FinishBarrierTask: All the tasks have finished"); 


. 
最 后 ， 在 main() 方 法 中 ， 在 一 个 执行 器 中 执行 了 10 个 任务 。 可 以 发 现 ，cyclicBarrier 对 象 
是 用 我 们 要 同步 的 任务 数 和 FinishBarrierTask 对 象 来 初始 化 的 。 


public static void main(String[] args) { 
CyclicBarrier barrier=new CyclicBarrier(10,new FinishBarrierTask()); 


ThreadPoolExecutor executor= (ThreadPoolExecutor) 
Executors.newCachedThreadPool (); 


for (int i=0; i<10; i++) { 
executor.execute (new BarrierTask (barrier)); 


executor.shutdown(); 


try { 
executor.awaitTermination(1, TimeUnit.DAYS); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


下 面 的 屏幕 截图 展示 了 本 例 的 执行 结果 。 


<terminated> BarrierMain [Java Application] C:\Program Files\Java\jdk-\bin\Javaw.ex 
Wed Apr 12 91:07:06 CEST 2817-pool-1-thread-8: Working 7 seconds 
FinishBarrierTask: All the tasks have finished 

pool-1-thread-8: Phase 2 

pool-1-thread-9: Phase 
pool-1-thread-7: Phase 
pool-1-thread-3: Phase 
pool-1-thread-1: Phase 
pool-1-thread-5: Phase 
pool-1-thread-6: Phase 
pool-1-thread-4: Phase 
pool-1-thread-19: Phase 2 
pool-1-thread-2: Phase 2 
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可 以 看 到 ， 当 所 有 的 任务 都 到 达 调 用 await () 方 法 的 公共 点 时 ， 将 执行 FinishBarrierTask， 
然后 所 有 的 任务 都 继续 其 执行 过 程 。 


11.2.6 CompletableFuture 类 


这 是 在 Java 8 并 发 API 中 引入 的 一 种 同步 机 制 , 在 Java9 中 又 有 了 一 些 新 方法 。 它 扩展 了 Future 
机 制 ,为 其 赋予 了 更 强 的 功能 和 更 大 的 灵活 性 。 它 允许 实现 一 个 事件 驱动 的 模型 ,链接 那些 只 有 当 其 
他 任务 执行 完毕 后 才 执 行 的 任务 。 与 Future 接口 相同 ， CompletableFuture 岂 必 须 采 用 操作 要 返 
回 的 结果 类 型 进行 参数 化 。 和 Future 对 象 一 样 , CompletableFuture 类 表示 的 是 异步 计算 的 结果 ， 
只 不 过 completableFuture 的 结果 可 以 1 任意 线程 确立 。 当 计算 正常 结束 时 ,该 类 采用 complete() 
方法 确定 结果 ,而 当 计 算出 现 异 常 时 , 则 采用 completeExceptionally () 方 法 。 如 果 两 个 或 者 多 个 
线程 调用 同一 CompletableFuture 的 complete() 方 法 或 completeFExceptionally () 方 法 ， 那 
么 只 有 第 一 个 调用 会 起 作用 。 

首先 ， 可 以 使 用 构造 函数 创建 CompletableFuture 对 象 。 在 本 例 中 ， 你 需要 使 用 前 面 介绍 的 
complete () 方 法 确定 任务 结果 。 不 过 ， 也 可 以 使 用 runAsync () 方 法 或 者 supplyAsync () 创建 一 个 
任务 结果 。runaAsync () 方 法 执行 一 个 Runnable 对 象 并 且 返 回 completableFuture<Vvoid>， 这 样 
计算 就 不 能 再 返回 任何 结果 了 。supplyaAsync () 方 法 执行 了 Supplier 接口 的 一 个 实现 ， 它 采用 本 次 
计算 要 返回 的 类 型 进行 参数 化 。 该 supplier 接口 提供 了 set () 方 法 。 在 该 方法 中 ， 需 要 包含 任务 代 
人 码 并 且 返 回 任 务 生 成 的 结果 。 在 本 例 中 ，completableFuture 的 结果 将 作为 supplier 接口 的 结果 。 
该 类 提供 了 大 量 方 法 ， 允 许 通 过 实现 一 个 事件 驱动 的 模型 组 织 任 务 的 执行 顺序 ,一 个 任务 只 有 在 
之 前 的 任务 完成 之 后 才 会 开始 。 这 其 中 包括 如 下 方法 。 

口 thenApplyAsync () : 该 方法 接收 Function 接口 的 一 个 实现 (可 以 表示 为 一 个 lambda 表达 
式 ) 作为 参数 。 该 函数 将 在 调用 completableFuture 完成 后 执行 。 该 方法 将 返回 
CompletableFuture 以 获得 Fuction 的 结果 。 

thenComposeAsync () : 该 方法 和 thenApplyAsync() 方 法 相似 ,但 是 当 供 给 函数 也 返回 
CompletableFuture 时 很 有 用 。 

口 thenAcceptAsync(): 该 方法 和 前 一 个 方法 相似 ， 只 不 过 其 参数 是 consumet 接口 的 一 个 
实现 (也 可 以 描述 为 一 个 lambda 表达 式 ) ; 在 这 种 情况 下 ， 计 算 不 会 返回 结果 。 
口 thenRunaAsync () : 该 方法 和 前 一 个 等 价 ， 只 不 过 在 这 种 情况 下 接收 一 个 Runnable 对 象 作 
为 参数 。 

口 thenCombineAsync (): 该 方法 接收 两 个 参数 。 第 一 个 参数 为 另 一 人 CompletableFuture 实 
例 ， 另 一 个 参数 是 BijFunction 接口 的 一 个 实现 (可 描述 为 一 个 lambda 函数 ), 该 BiFunction 
接口 实现 将 在 两 个 completableFuture ( 当前 调用 的 和 参数 中 的 ) 都 完成 后 执行 。 该 方法 

将 返回 completableFuture 以 获取 BiFunction 的 结果 。 

口 runAfterBothAsync (): 该 方法 接收 两 个 参数 。 第 一 个 参数 为 另 一 人 CompletableFuture, 

而 第 二 个 参数 为 Runnable 接口 的 一 个 实现 ， 它 将 在 两 个 completableFuture ( 当前 调用 

的 和 参数 中 的 ) 都 完成 后 执行 。 


Wy 
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口 runAfterEitherAsync () : 该 方法 与 前 一 个 方 法 等 价 ， 只 不 过 当 其 中 一 人 Completable- 

Future 对 象 完 成 之 后 才 会 执行 Runnable 任务 。 

口 allof () : 该 方法 接收 CompletableFuture 对 象 的 一 个 变量 列表 作为 参数 。 它 将 返回 一 个 
CompletableFuture<Void> 对 象 ， 而 该 对 象 将 在 所 有 的 CompletableFuture 对 象 都 完成 
之 后 返回 其 结果 。 

口 anyof () : 该 方法 和 前 一 个 方法 等 价 ， 只 是 返回 的 CompletableFuture 对 象 会 在 其 中 一 个 

CompletableFuture 对 象 完成 之 后 返回 其 结果 。 

最 后 , 如 果 想 要 获取 completableFuture 返回 的 结果 ， 可 以 使 用 get () 方 法 或 者 join () 方 法 。 
这 两 个 方法 都 会 阻塞 调用 线程 , 直到 CompletableFuture 完成 之 后 返回 其 结果 。 这 两 个 方法 之 间 的 
主要 区 别 在 于 ，get () 方 法 抛 出 ExecutionException (这 是 一 个 校 验 异常 )， 而 join() 方 法 抛 出 
RuntimeException (这 是 一 个 未 校 验 异常 )。 因 此 ， 在 不 抛 出 异常 的 lambda (例如 supplier、 
Consumer 或 Runnable ) 内 部 ,使 用 join () 方 法 更 为 方便 。 

前 面 提 到 的 大 多 数 方法 都 有 Async 后 缀 。 这 意味 着 这 些 方法 将 使 用 ForkJoinPool .commonPool 
实例 以 并 发 方式 执行 。 这 些 方法 都 有 不 带 Async 后 绥 的 版 本 ， 它 们 将 以 串 行 方式 执行 (这 就 是 说 ， 
与 执行 CompletableFuture 的 线程 是 同一 个 ); 还 有 带 Async 后 级 并且 以 一 个 执行 器 实例 作为 额外 
参数 的 版 本 。 这 种 情况 下 ，completableFuture 将 在 作为 参数 传递 的 执行 器 中 以 异步 方式 执行 。 
Java 9 增加 了 一 些 方法 ,为 CompletableFuture 类 赋予 了 更 强 的 功能 。 

口 defaultExecutor () : 该 方法 用 于 返回 并 不 接收 Executor 作为 参数 的 那些 异步 操作 的 默 

认 执 行 器 。 通 常 ， 它 将 是 ForkJoinPool .commonPoo1l () 方 法 的 返回 值 。 

口 copy () : 该 方法 创建 completableFuture 对 象 的 一 个 副本 。 如 果 原 来 的 Completable- 

Future 正常 完成 ， 则 副本 方法 也 将 正常 完成 并 返回 相同 的 值 。 如 果 原 来 的 completable- 

Future 异常 完成 ， 则 副本 方法 也 异常 完成 ， 并 且 抛 出 completionException 异常 。 

口 completeaAsync () : 该 方法 接收 一 个 supplier 对 象 作 为 参数 (还 可 以 选择 Executor ) 。 

借助 supplier 的 结果 完成 CompletableFuture。 

口 orTimeout () : 该 方法 接收 一 段 时 延 (一 段 时 间 和 一 个 TimeUnit ) 。 如 果 Completable- 

Future 在 这 段 时 间 之 后 没有 完成 ， 那 么 抛 出 TimeoutException 异常 并 异常 完成 。 

口 completeonTimeout () : 该 方法 与 上 一 个 方法 相似 ， 只 不 过 它 在 作为 参数 的 值 的 范围 内 正 


常 完 "| [eo 
口 delayedExecutor () : 该 方法 返回 一 个 Executor， 该 执行 带 在 执行 指定 时 延 之 后 执行 某 一 
任务 。 


使 用 CompletableFuture 类 
在 本 例 中 , 你 将 学 会 如 何 使 用 completableFuture 类 以 并 发 方式 执行 一 些 异步 任务 。 我 们 将 用 
由 亚马逊 的 20 000 个 商品 构成 的 集合 实现 下 面 的 任务 树 。 
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读 取 范例 


首先 要 使 用 这 些 范例 ( 商品 )。 然 后 执行 四 个 并 发 任务 。 第 一 个 任务 是 搜索 商品 。 当 搜索 完成 后 ， 
将 结果 写 人 一 个 文件 。 第 二 个 任务 是 获得 评价 最 高 的 商品 。 第 三 个 任务 是 获得 销量 最 佳 的 商品 。 当 这 
两 个 任务 完成 之 后 ， 将 使 用 男 一 个 任务 将 它们 的 信息 连接 起 来 。 最 后 ,第 四 个 任务 是 获取 购买 过 商品 
的 用 户 列表 。main () 方 法 将 等 待 所 有 任务 结束 ， 然 后 输出 结果 。 

下 面 看 看 实现 过 程 的 细节 。 

@ 辅助 任务 

在 本 例 中 ， 将 用 到 一 些 辅助 任务 。 第 一 个 任务 是 LoadTask， 用 于 从 磁盘 加 载 商 品 信 息 并 且 返 回 
一 个 Prodquct 对 象 列表 。 


public class LoadTask implements Supplier<List<Product>> { 


private Path path; 


public LoadTask (Path path) { 
this.path=path; 
} 
@Override 
public List<Product> get() { 
List<Product> productList=null; 
trye 证 
productList = Files.walk (path, FileVisitOption.FOLLOW_LINKS) 
.parallel() .filter(f -> f.toString!() 
.endsWith(".txt")) .map(ProductLoader::1o0ad) 
.Collect (Collectors.toList()); 
} catch (IOException e) { 
e.printStackTrace(); 


} 


return productList; 
} 
} 


该 任务 实现 了 supplier 接口 , 将 其 作为 completableFuture 执行 。 从 内 部 来 看 , 它 使 用 一 个 
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流 来 处 理 和 解析 所 有 包含 商品 列表 的 文件 。 
第 二 个 任务 是 SearchTask， 该 任务 将 实现 对 Product 对 象 列 表 的 搜索 ， 查 找 在 名 称 中 含有 某 
一 单词 的 对 象 。 该 任务 是 function 接口 的 一 个 实现 。 


public class SearchTask implements Function<List<Product>, 
List<Product>> { 


private String query; 


public SearchTask (String query) { 
this.query=query; 
于 


@Override 
public List<Product> apply (List<Product> products) { 
System.out.println(new Date()+": CompletableTask: start"); 
List<Product> ret = products.stream() 
.filter (product -> product .getTitlel() 
.toLowerCase() .contains (guery)) 
.Collect (Collectors.toList()); 
System.out.println(new Date()+": CompletableTask: end: 
"+ret.size()); 
el Pet: 


} 


} 

它 接收 含有 全 部 商品 信息 的 List<Product>， 返 回 一 个 含有 满足 标准 的 商品 的 List 
<Proguct>。 从 内 部 来 看 , 它 基 于 输入 列表 创建 了 流 , 对 其 进行 筛选 , 并 且 将 结果 收集 到 另 一 个 列表 中 。 

最 后 ，writeTask 将 搜索 任务 中 获得 的 商品 写 人 一 个 File 对 象 。 在 我 们 的 例子 中 生成 了 一 个 
HTML 文件 , 不 过 也 可 以 以 想 要 的 格式 输出 这 一 信息 。 该 任务 实现 了 Consumer 接口 ， 这样 它 的 代码 
就 必须 采用 如 下 形式 。 


public class WriteTask implements Consumer<List<Product>> { 


@Override 
public void accept (List<Product> products) { 
// 实现 部 分 省 略 

} 
} 
e@ main() 方 法 
我 们 在 main() 方 法 中 对 这 些 任务 进行 了 组 织 。 首先 , 使 用 completableFuture 类 的 supplyAsync () 

方法 执行 LoadTask。 在 LoadTask 开始 之 前 将 等 待 3 秒 ,以 展示 aelayExecutor () 方 法 如 何 工 作 。 


public class CompletableMain { 


public static void main(String[] args) { 
Path file = Paths.get ("data","category"); 
System.out.println(new Date() + ": Main: Loading products 
after three seconds...."); 
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LoadTask loadTask = new LoadTask (file); 


CompletableFuture<List<Product>>loadFuture = CompletableFuture 
.SupplyAsync (loadTask,CompletableFuture 
.delayedExecutor(3, TimeUnit.SECONDS)); 


然后 , 有 了 生成 的 completableFuture, 就 可 以 在 加 载 任务 完成 之 后 使 用 thenApplyAsync () 
行 搜索 任务 。 


System.out.println(new Date() + ": Main: Then apply for 
search"); 


CompletableFuture<List<Product>> completableSearch = loadFuture 
.thenApplyAsync (new SearchTask ("love")); 


一 旦 搜索 任务 完成 , 就 要 将 执行 结果 输出 到 一 个 文件 。 由 于 该 任务 并 不 返回 结果 , 我们 使 用 then- 


AcceptAsync () 方 法 。 


CompletableFuture<Void> completableWrite = completableSearch 
.thenAcceptAsync (new WriteTask()); 


completableWrite.exceptionally (ex -> { 
System.out.println(new Date() + ": Main: Exception " 
+ ex.getMessage ()); 
return null; 


用 

如 果 写 入 任务 抛 出 异常 ， 那 么 使 用 exceptionally () 方 法 指定 要 做 的 事项 。 

然后 ,在 completableFuture 对 象 上 使 用 thenApplyAsync () 方 法 执行 该 任务 ， 以 便 获 取 购 
买 某 一 商品 的 用 户 列 表 。 将 该 任务 描述 为 一 个 lambda 表达 式 。 请 注意 ， 该 任务 并 不 会 与 搜索 任务 并 
行 执行 。 


System.out .Println(new Date() + ": Main: Then apply for users"); 


CompletableFuture<List<String>> completableUsers = loadFuture 
.thenApplyAsync (resultList -> { 


System.out .println(new Date()+ ": Main: Completable users: start"); 
List<String> users = resultList.stream!() 

.flatMap(p -> p.getReviews() .stream()) 

.map (review -> review.getUser()) 


.distinct() 
.Collect (Collectors.toList () ) ; 
System.out .println(new Date() + ": Main: Completable users: end"); 


Fs 


}); 


并 行 处 理 这 些 任务 时 , 我 们 还 使 用 thenApplyAsync () 方 法 执行 了 该 任务 , 以 便 查 找 评 价 最 高 的 
商品 和 销量 最 佳 的 商品 。 我 们 也 使 用 一 个 lambda 表达 式 定义 了 这 些 任务 。 


System.out .println(new Date() + ": Main: Then apply for best 
rated product...."); 
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CompletableFuture<Product> completableProduct = loadFuture 
.thenApplyAsync (resultList -> { 
Product maxProduct = null; 
double maxScore = 0.0; 


System.out.println(new Date() + ": Main: Completable product: 
start "ys 

for (Product product : resultList) { 

if (!product.getReviews().isEmpty()) { 


double score = product.getReviews() .stream() 
.mapToDouble (review -> review.getValue()) 
.average() .getAsDouble(); 
if (score > maxScore) { 
maxProduct = product; 
maxScore = score; 


} 
System.out .println(new Date() + ": Main: Completable product : end"); 
return maxProduct; 


用 


System.out .println(new Date() + ": Main: Then apply for best 
selling product...."); 
CompletableFuture<Product> completableBestSellingProduct = 
loadFuture.thenApplyAsync (resultList -> { 
System.out.println(new Date() + ": Main: Completable best 
selling: start"); 
Product bestProduct = resultList.stream() 
.min(Comparator.comparingLong 
(Product::getSalesrank)) 
.orElse (null); 
System.out.println(new Date() + ": Main: Completable best 
selling: end"); 


return bestProduct; 


和 学 
如 前 所 述 ， 我 们 想 将 前 两 个 任务 的 结果 连 到 一 起 。 可 以 使 用 thencombineaAsync () 方 法 完成 这 
一 工作 ， 用 它 指 定 一 个 将 在 这 两 个 任务 完成 之 后 执行 的 任务 。 
CompletableFuture<String> completableProductResult = 
completableBestSellingProduct 
.thenCombineAsync( 


completableProduct, (bestSellingProduct, 
bestRatedProduct) -> { 


System.out.println(new Date() + ": Main: Completable product 
result: start"); 
String ret = "The best selling product is " 


+ bestSellingProduct.getTitle() + "\n"; 
ret += "The best rated product is " 
+ bestRatedProduct .getTitle(); 
System.out.println(new Date() + ": Main: Completable product 
result: end"); 


return ret; 


3 
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最 后 , 使 用 completeonTimeout () 方 法 预 留 1 秒 钟 ， 以 等 待 completableProductResult 任 
务 完成 。 如 果 它 在 1 秒 之 内 没有 完成 , 那么 完成 completableFuture, 并 得 出 结果 Timeout。 然 后 ， 
使 用 allof () 方 法 和 join () 方 法 等 待 最 终 任务 结束 ， 并 且 输 出 使 用 get () 方 法 获得 的 结果 。 


System.out .Println(new Date() + ": Main: Waiting for results"); 


completableProductResult.completeOnTimeout ("TimeOut", 1, 
TimeUnit .SECONDS); 
CompletableFuture<Void> finalCompletableFuture = CompletableFuture 
.allOof (completableProductResult, completableUsers, 
completableWrite); 
finalCompletableFuture.join(); 


try i{ 
System.out.println("Number of loaded products: " 
+ loadFuture.get () .size()); 
System.out.println("Number of found products: " 
+ CompletableSearch.get () .size()); 
System.out .println("Number of users: " 
+ CompletableUsers.get () .size()); 
System.out .println("Best rated product: " 
+ CompletableProduct.get () .getTitle()); 
System.out .println("Best selling product: " 
+ CompletableBestSellingProduct .get () 
.getTitle()); 
System.out.println("Product result: 
"+CcompletableProductResult .get ()); 
} catch (InterruptedException | ExecutionException e) { 
e.printStackTrace(); 


} 
在 下 面 的 屏幕 截图 中 ， 可 以 看 到 本 例 的 执行 结果 。 


<terminated> CompletableMain [Java Application] C:\Program Files\Java\jdk-9\bin\javaw.exe (12 abr. 2 


Wed Apr 12 81:37:12 CEST 2817: Main: Loading products after three seconds.... 
Wed Apr 12 81:37:13 CEST 2817: Main: Then apply for search.... 

Wed Apr 12 81:37:13 CEST 2817: Main: Then apply for users.... 

Wed Apr 12 91:37:13 CEST 2817: Main: Then apply for best rated product.... 
Wed Apr 12 91:37:13 CEST 2817: Main: Then apply for best selling product.... 
Wed Apr 12 81:37:13 CEST 2617: Main: Waiting for results 

Wed Apr 12 91:37:16 CEST 2817: LoadTast: starting.... 

Wed Apr 12 91:38:19 CEST 2817: LoadTast: end 

Wed Apr 12 91:38:19 CEST 2817: Main: Completable best selling: start 

Wed Apr 12 91:38:19 CEST 2817: CompletableTask: start 

Wed Apr 12 81:38:19 CEST 2817: Main: Completable product: start 

Wed Apr 12 91:38:19 CEST 2817: Main: Completable best selling: end 

Wed Apr 12 91:38:19 CEST 2817: Main: Completable users: start 

Wed Apr 12 91:38:19 CEST 2817: CompletableTask: end: 268 

Wed Apr 12 91:38:19 CEST 2817: WriteTask: start 

Wed Apr 12 81:38:19 CEST 2817: WriteTask: end 

Wed Apr 12 91:38:19 CEST 2817: Main: Completable product: end 

Wed Apr 12 91:38:19 CEST 2817: Main: Completable users: end 

Number of loaded products: 20669 

Number of found products: 298 

Number of users: 158288 

Best rated product: Patterns of Preaching 

Best selling product: The Da Vinci Code 

Product result: TimeOut 

Wed Apr 12 81:38:19 CEST 2817: Main: end 
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首先 ，main () 方 法 执行 所 有 配置 并 等 竺 任务 完成 。 这 些 任务 按照 配置 的 顺序 执行 。 可 以 看 到 ， 
LoadTask 在 三 秒 钟 之 后 启动 , 以 及 completableProductResult 返回 字符 串 Timeout, 因为 它 在 
1 秒 钟 之 内 还 没有 完成 。 


11.3 ”小结 


本 章 回 顾 了 所 有 并 发 应 用 程序 均 具备 的 两 个 组 成 部 分 。 第 一 个 组 成 部 分 是 数据 结构 。 每 一 个 程序 都 
要 使 用 数据 结构 将 待 处 理 的 信息 存放 到 内 存 中 。 我 们 介绍 了 并 发 数据 结构 ， 对 Java8 并 发 API 中 引入 的 
一 些 新 功能 进行 了 详细 介绍 ， 这 主要 涉及 concurrentHashMap 类 和 实现 collection 接口 的 类 。 

第 二 个 组 成 部 分 是 同步 机 制 , 它 可 以 在 多 个 并 发 任务 对 数据 进行 修改 时 保护 数据 , 而 且 如 果 必 要 ， 
还 可 以 控制 任务 的 执行 顺序 。 本 章 探讨 了 同步 机 制 , 对 completableFuture 进行 了 详细 介绍 , 它 是 
Java 8 并 发 API 中 的 一 个 新 特性 。 

下 一 章 将 介绍 如 何 测试 以 及 监视 并 发 应 用 程序 。 


测试 与 监视 并 发 应 用 程序 


软件 测试 在 每 个 开发 过 程 中 都 是 一 项 重要 任务 。 每 个 应 用 程序 都 必须 满足 最 终 用 户 的 需求 ， 而 测 
试 就 是 对 此 进行 验证 的 阶段 。 应 用 程序 必须 在 可 接受 的 时 间 里 按照 指定 格式 生成 有 效 结果 。 测 试 阶段 
的 主要 目标 是 尽 可 能 多 地 检测 软件 中 的 错误 并 进行 修正 ， 以 提高 产品 的 整体 质量 。 

在 传统 的 瀑布 模型 中 ,测试 阶段 是 在 开发 过 程 达到 非常 高 级 的 阶段 后 才 开始 的 。 但 是 现在 ， 越 来 
越 多 的 开发 团队 开始 采用 敏捷 方法 论 ， 将 测试 阶段 整合 到 开发 阶段 之 中 。 其 主要 目的 就 是 尽 可 能 快 地 
测试 软件 ， 以 便 在 开发 过 程 中 尽早 发 现 错误 。 

Java 中 有 很 多 可 以 自动 执行 测试 的 工具 ， 如 JUnit、TestNG 等 。 还 有 一 些 像 JMeter 这 样 的 工具 ， 
可 以 帮助 你 测试 自己 的 应 用 程序 可 以 同时 供 多 少 用 户 使 用 。 还 有 其 他 像 Selenium 这 样 的 工具 , 可 用 来 
在 Web 应 用 程序 中 进行 集成 测试 。 

在 并 发 应 用 程序 中 ,测试 阶段 更 加 重要 且 更 加 困难 。 你 可 以 同时 运行 两 个 或 者 多 个 线程 ， 但 是 无 
法 控制 其 执行 顺序 。 可 以 对 一 个 应 用 程序 做 大 量 测试 , 但 是 不 能 保证 不 同 线 程 以 某 种 顺序 执行 时 不 会 
导致 竞争 条 件 或 死 锁 。 这 种 情形 也 导致 了 错误 再 现 比较 困难 。 你 会 遇 到 仅 在 特定 环境 下 出 现 的 错误 ， 
这 样 就 很 难 找到 造成 该 错误 的 真实 原因 。 本 章 将 介绍 下 述 主题 ， 以 帮助 你 测试 并 发 应 用 程序 。 

口 监视 并 发 对 象 。 
口 监视 并 发 应 用 程序 。 
口 测试 并 发 应 用 程序 。 


12.1 监视 并 发 对 象 


Java 并 发 API 提供 的 大 多 数 并 发 对 象 都 含有 可 获知 该 对 象 状态 的 方法 。 这 些 状 态 包括 当前 正在 执 
行 的 线程 数 、 被 阻 断 且 等 待 其 一 条 件 的 线程 数 、 执 行 的 任务 数 等 。 本 节 ， 你 将 学 习 要 用 到 的 最 重要 的 
方法 ,以 及 可 通过 这 些 方 法 获取 到 的 信息 。 这 些 信息 对 于 检测 导致 错误 的 原因 很 用， 尤其 是 在 错误 
仅 在 某 些 罕见 条 件 下 发 生 之 时 。 


12.1.1 监视 线程 


线程 是 Java 并 发 API 中 最 基本 的 元 素 。 它 允许 你 执行 一 个 原始 任务 。 当 线程 开始 执行 时 ,你 可 以 
决定 执行 什么 样 的 代码 (扩展 Thread 类 或 者 实现 Runnable 接口 )， 以 及 如 何 使 其 与 应 用 程序 的 其 
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他 任务 同步 。Thread 类 提供 了 一 些 可 以 获取 线程 信息 的 方法 。 其 中 最 有 用 的 一 些 方法 如 下 。 

口 getId() : 该 方法 返回 线程 的 标识 符 。 标 识 符 是 一 个 long 型 的 正 数 ， 而 且 是 唯一 的 。 

口 getName () : 该 方法 返回 线程 的 名 称 。 默 认 情 况 下 ， 其 命名 格式 为 Thread-xxx， 不 过 线程 

名 称 可 以 在 构造 函数 中 修改 ， 也 可 以 使 用 setName () 方 法 修改 。 

口 getPriority () : 该 方法 返回 线程 的 优先 级 。 默 认 情 况 下 ， 所 有 线程 的 优先 级 都 为 5， 但 
可 以 使 用 setPriority () 方 法 来 更 改 。 优 先 较 高 的 线程 比 优先 级 较 低 的 线程 更 容易 被 优先 
选用 。 

口 getSstate(): 该 方法 返回 线程 的 状态 。 它 返回 Enum Threadq.Sstate 中 的 一 个 值 ， 且 其 取 值 
可 以 为 NEW、RUNNABLE、BLOCKED、WAITING、TIMED_WAITING 和 TERMINATED。 可 查看 
API 文 档 来 了 解 每 个 状态 的 真实 含义 。 

口 getStackTrace() : 该 方法 将 线程 的 调用 栈 作为 一 个 StackTraceElement 对 象 数组 返 
回 。 可 以 打印 该 数组 ， 以 了 解 该 线程 被 做 了 哪些 调用 。 

例如 ， 可 以 使 用 如 下 这 样 一 段 代 码 来 获取 与 某 个 线程 相关 的 信息 。 


System.out .Print1IDn 


"火炎 火炎 火炎 炎炎 火炎 火炎 火炎 炎炎 炎炎 火炎 火炎 几 ) 了 
’ 


( 
System.out .println("Id: " + thread.getId()); 
System.out .println("Name: " + thread.getName()); 
System.out .println("Priority: " + thread.getPriority()); 
System.out .println("Status: " + thread.getState()); 


System.out .println("Stack Trace"); 

for (StackTraceElement ste : thread.getStackTrace()) { 
System.out .println(ste); 

} 


System.out .println("** 火 火炎 火炎 类 火炎 类 类 火炎 火炎 炎炎 大 类 类 大 \) 》 


过 这 段 代码 ， 可 以 得 到 如 下 输出 。 


<terminated> MainThread [Java Application] C:\Program FilesJava\jdk-$\bin\javaw.exe (17 abr. 2017 22:59:04) 


本 本 林 本 本 本 亲本 林 本 本 本 本 让 本本 本 本 林 本 本 本 


Id: 13 

Name: Thread-9 

Priority: 5 

Status: TIMED WAITING 

Stack Trace 

java.lang.Thread.sleep(java.base@9-ea/Native Method) 
java.lang.Thread.sleep(java.base@9-ea/Thread.java:340) 
java.util.concurrent.TimeUnit.sleep(java.base@9-ea/TimeUnit.java:461) 

com. javferna.packtpub.book.mastering.test.common.CommonTask.run(CommonTask. java:13) 
java.lang.Thread.run(java.base@9-ea/Thread.java:843) 


六 不 术 六 不 本 六 本 率 六 不 本 六 本 术 厅 本 本 六 本本 本 


本 本 本 中 本 本 本 本 本 可 本 本 本 本 本 中 可 本 本 本 本 可 
Id: 13 

Name: Thread-9 
Priority: 5 

Status: TERMINATED 


Stack Trace 
本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 水 水 本 本 本本 


12.1.2 ”监视 锁 
锁 是 Java 并 发 API 提供 的 基本 同步 元 素 之 一 。 它 在 Lock 接口 和 ReentrantLock 类 中 定义 。 基 
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本 上 , 锁 允 许 你 在 代码 中 定义 一 个 临界 段 , 不 过 , 锁 机 制 要 比 synchronized 关键 字 等 其 他 机 制 更 加 
灵活 〈 例 如 ， 你 可 以 针对 读 写 操作 定义 不 同 的 锁 ， 或 者 定义 非 线性 的 临界 段 )。ReentrantLock 类 还 
有 一 些 方法 可 以 帮助 你 获知 Lock 对 象 的 状态 。 

口 getowner () : 该 方法 返回 一 个 Thread 对 象 ， 其 中 含有 当前 加 锁 的 线程 ， 也 就 是 说 ， 该 线程 

正在 执行 临界 段 。 

口 hasQueuedThreads () : 该 方法 返回 一 个 布尔 值 ， 它 表示 是 否 有 线程 等 待 获取 锁 。 

口 vetQueueLength(): 该 方法 返回 一 个 int 值 ， 它 表示 当前 等 待 获取 锁 的 线程 数 。 

口 getoueuedThreads () : 该 方法 返回 一 个 collection<Thread> 对 象 ， 其 中 含有 当前 等 待 

获取 锁 的 Thread 对 象 。 

口 isFair(): 该 方法 返回 一 个 布尔 值 ， 表 示 公 平 属 性 的 状态 。 该 属性 的 值 用 于 判定 下 一 个 获 

取 锁 的 线程 。 可 查看 Java API 相关 信息 来 详细 了 解 这 一 功能 。 

口 isLocked() : 该 方法 返回 一 个 布尔 值 ， 表 示 锁 是 否 归 某 个 线程 所 有 。 

口 getHoldcount () : 该 方法 返回 一 个 int 值 ， 该 值 表示 当前 线程 获取 到 锁 的 次 数 。 如 果 当 前 
线程 并 没有 得 到 锁 ， 则 返回 值 为 0。 和 否则， 对 于 当前 没有 调用 相 匹配 的 unlock () 方 法 的 线 
程 ， 该 方法 将 返回 lock () 方 法 在 该 线程 中 被 调用 的 次 数 。 

getOwner () 方 法 和 getoueuedThreads () 方 法 是 受 保护 的 ， 因 此 不 能 直接 访问 。 要 解决 这 一 问 

题 ， 你 可 以 实现 自己 的 Lock 类 ， 并 且 实 现 能 够 提供 这 些 信息 的 方法 。 

例如 ， 你 可 以 定义 一 个 名 为 MyLock 的 类 ， 如 下 所 示 : 


public class MyLock extends ReentrantLock { 


private static final long serialVersionUID = 8025713657321635686L; 


public String getOwnerName() { 
if (this.getOowner() == null) 
return "None"; 
} 
return this.getOwner() .getName (); 


} 


{ 


public Collection<Thread> getThreads() { 
return this.getQueuedThreads (); 
lj 
} 


这 样 ， 可 以 使 用 一 段 类 似 下 面 的 代码 来 获取 与 某 个 锁 相 关 的 全 部 信息 。 


System.out .DPIn 世 Im ( "大 火炎 火炎 炎炎 火炎 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 火 赤 大 NI ) ; 


System.out.println("Owner : " + lock.getOwnerName()); 
System.out .println("Queued Threads: " + lock.hasQueuedThreads () ) ; 
if (lock.hasQueuedThreads()) { 

System.out.println("Queue Length: " + lock.getQueueLength()); 


System.out .println("Queued Threads: "); 

Collection<Thread> lockedThreads = lock.getThreads () ; 

for (Thread lockedThread : lockedThreads) { 
System.out .println(lockedThread.getName ()); 
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} 
} 
System.out .println("Fairness: " + lock.isFair()); 
System.out .println("Locked: " + lock.isLocked()); 
System.out .println("Holds: "+lock.getHoldCount ()); 
System, out .Brintln( "ww 太太 太太 大 灾 太 太太 大大 大 实 光 办 大 太太 太守 NIT™) 


通过 该 代码 块 ， 你 将 得 到 类 似 如 下 所 示 的 输出 结果 。 


12.1.3 


监视 执行 器 


<terminated> MainLock [Java Application] C:\Program Files\Java\jdk-\bin. 


本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 


Owner : pool-1-thread-2 
Queued Threads: true 
Queue Length: 3 

Queued Threads: 
pool-1-thread-4 
pool-1-thread-19 
pool-1-thread-7 
Fairness: false 

Locked: true 

Holds: 9 


本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 


执行 器 框架 是 这 样 一 种 机 制 : 它 允 许 你 执行 并 发 任务 而 无 须 考虑 线程 的 创建 和 管理 问题 。 你 可 以 将 


任务 发 送 给 执行 器 。 它 有 一 个 内 部 线程 池 ， 执 行 任 务 时 可 以 再 利 
务 所 消耗 的 资源 ,这 样 你 就 无 须 担心 系统 过 载 。 执 行 器 框架 提供 了 


j。 执 行 器 也 提供 了 一 种 机 制 来 控制 任 


Executor 接 


口 和 ExecutorService 


接口 ， 以 及 一 些 实现 这 些 接口 的 类 。 这 其 中 最 基本 的 类 是 ThreadqPoolExecutor， 它 提供 了 一 些 方 
法 ， 可 以 帮助 你 获知 执行 器 的 状态 。 


口 ge 
口 ge 
口 ge 


口 ge 
口 ge 
口 ge 
口 ge 


Dis 


Dis 


数 。 即 使 执行 器 
tLargestPoolSize(): 该 方法 返 
tMaximumPoolSize(): 该 方法 返 


tCompleted] 


raskCount () : 该 方法 返回 执行 器 已 经 执行 
该 方法 返回 核心 线程 数目 。 这 一 数目 决定 了 线程 池 中 的 最 小 线程 


tCorePoolSize(): 


tActiveCount () : 该 方法 返回 执行 器 中 正在 执行 任务 的 线程 数 。 


旦 已 完成 执行 的 任务 数 。 


Terminated( 


Terminating () : 如 果 调 


执 f 


t PoolSize(): 
tTaskCount () : 该 方法 返回 已 经 发 送 给 执行 器 的 任务 数 ， 包 括 正在 等 待 、 运 行 中 和 已 经 
完成 的 任务 。 
) : 如 果 调 用 了 shutdown() 或 shutq 
有 未 完成 任务 的 执行 ， 则 该 方法 返回 true， 否 则 返回 false。 
用 了 shutdown () 或 shutdownNow() 方 法 ,但 是 执行 器 仍然 在 
任务 ， 则 该 方法 返回 true。 


:没有 任务 运行 ， 线 程 池 中 的 线程 数 也 不 会 少 于 该 方法 所 返回 的 数目 。 


回执 行 絮 线程 池 已 经 同时 执行 过 的 最 大 线程 数 。 


该 方法 返回 线程 池 中 当前 的 线程 数 。 


可 以 使 用 类 似 如 下 的 代码 片段 获取 有 关 ThreadPoolExecutor 的 信息 。 


回执 行 器 线程 池 中 同时 可 以 存在 的 最 大 线程 数 。 


ownNow 1() 方 法 并 且 执 行 器 已 完成 了 所 
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System.out .println (下 大 灾 大 炎 交 交大 炎 克 大 于 灾 大 克 克 克 光 克 克 大 光 克 克 克 守 大大 大 克 光 光 灾 大 克 克 大 光大 大 天 于 克 光 下 ) > 
System.out .println("Active Count: "+executor.getActiveCount () ) ; 
System.out .println("Completed Task Count : "+ 
executor.getCompletedTaskCount ()); 

System.out .println("Core Pool Size:"+ executor.getCorePoolSize()); 
System.out .println("Largest Pool Size: "+ executor.getLargestPoolSize()); 
System.out .println("Maximum Pool Size: "+ executor.getMaximumPoolSize()); 
System.out .println("Pool Size: "+executor.getPoolSize()); 

System.out .println("Task Count: "+executor.getTaskCount () ) ; 

System.out .println("Terminated: "+executor.isTerminated()); 

System.out .println("Is Terminating: "+executor.isTerminating()); 
System.out .println (了 大 交 大 大 大 大 大 大 大大 交大 大 大 大 大 大大 大 大 交 克 大 大 大 大 大 大 大 大 大 类 大 大 大大 大 大 大 大 大 大 大 中 ) 


通过 这 段 代码 ， 可 以 得 到 类 似 如 下 的 输出 。 


<terminated> MainExecutor [Java Application] C:\Program FilesJava\jdk-$\bin\jal 


不 术 可 本 本 本 可 本 可 本 本 冰 本 本 本 本 本 本 本 本 冰 本 冰 可 本 本 术 冰 本 本 本 冰冰 本 可 本 本 本 本 本 可 本 本 


Active Count: 3 

Completed Task Count: 7 

Core Pool Size: 9 

Largest Pool Size: 19 
Maximum Pool Size: 2147483647 
Pool Size: 19 

Task Count: 19 

Terminated: false 


Is Terminating: false 
率 率 率 订 本本 本 率 床 本 末末 订 本本 床 床 床 订 本 本 本 床 本 让 本 本 本本 本 本 本 本 本 床 本 本 本 证 本 本本 来 


本 亲本 不 本 亲本 亲本 本 不 六 本 本 亲本 亲本 本本 六 本 亲本 本 厅 本 亲本 本 本 亲本 亲本 本本 亲本 本 本本 本 


Active Count: 2 

Completed Task Count: 8 

Core Pool Size: 9 

Largest Pool Size: 19 
Maximum Pool Size: 2147483647 
Pool Size: 19 

Task Count: 19 

Terminated: false 


Is Terminating: false 
率 率 让 率 本本 本本 标本 本本 本本 本 床 率 本本 本本 本本 本 本 本 本 本 本 本 本 本本 本本 率 本 末末 本 本 末末 


12.1.4 监视 Fork/Join 框架 


Fork/Join 框架 提供 了 一 种 特殊 的 执行 器 , 主要 针对 那些 可 以 使 用 分 治 方法 实现 的 算法 。 它 基于 工 
作 窃 取 算 法 。 创 建 一 个 用 于 处 理 整个 问题 的 初始 任务 ， 该 任务 再 创建 其 他 子 任务 ， 每 个 子 任务 都 处 至 
问题 的 一 部 分 ( 相对 较 小 )， 并 且 等 待 任务 执行 完毕 。 分 割 后 的 每 个 任务 都 将 它 要 处 理 的 子 问题 的 规 
模 和 预定 义 规模 相 比较 ， 如 果子 问题 的 规模 小 于 预定 义 规 模 ， 则 直接 求解 该 问题 ; 否则 ， 它 将 问题 再 
次 分 割 给 其 子 任务 处 理 ， 并 旦 等 待 这 些 子 任务 返回 结果 。 工 作 窃 取 算 法 利用 了 那些 执行 任务 的 线程 
它们 等 待 子 任务 返回 结果 并 执行 其 他 任务 。ForkJoinPool 类 提供 了 如 下 方法 以 获取 其 状态 。 

口 getParallelism(): 该 方法 返回 线程 池 确 立 的 并 行 处 理 的 预期 层级 。 

口 getPoolsize() : 该 方法 返回 线程 池 中 的 线程 数 。 

口 getActiveThreadCount () : 该 方法 返回 线程 池 中 当前 执行 任务 的 线程 数 。 

口 getRunningThreadCount () : 该 方法 返回 并 不 等 待 其 子 任务 完成 的 线程 的 数量 。 

口 getQueuedSubmissionCount () : 该 方法 返回 已 经 提交 给 线程 池 但 是 尚未 开始 执行 的 任务 数 。 


Ha 
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口 getQueuedTaskCount () : 该 方法 返回 线程 池 工作 窃取 队列 中 的 任务 数 。 

口 hasQueuedSubmissions(): 如 果 有 任务 提交 给 线程 池 且 尚未 开始 执行 ， 则 该 方法 返回 true， 
否则 返回 false。 

口 getStealCount () : 该 方法 返回 Fork/Join 池 执 行 工 作 穷 取 算法 的 次 数 。 

D isTerminated () : eS Fork/Join 池 完 成 执行 ， 则 该 方法 返回 true， 否 则 返回 false。 

可 以 使 用 如 下 所 示 的 代码 片段 获得 ForkJoinPool 类 的 相关 信息 。 


System.ou ,的 到 六 蕊 灶 几 突 大 尖 突 内 大 内 大 大 大 内 大 内 大 大 大 内 大 大 大 大 大 了 

System.out .println("Parallelism: "+ pool.getParallelism()); 

System.out .println("Pool Size: "+ pool.getPoolSize()); 

System.out .println("Active Thread Count: "+ pool.getActiveThreadCount () ) ; 
System.out .printlin 


"Running Thread Count: "+ pool.getRunningThreadCount ()); 
) 


nl( 
nl 
nl( 
( 
( 
System.out .printin("Queued Submission: "+ pool.getQueuedSubmissionCount () ) ; 
( 
( 
nl 
nl( 
nl 


ct Cr tt te Mt A tt Tet 


System.out.println("Queued Tasks: "+pool.getQueuedTaskCount () ) ; 
System.out .println("Queued Submissions: "+ pool.hasQueuedSubmissions()); 
System.out .println("Steal Count: "+ pool.getStealCount ()); 

System.out .println("Terminated : "+ pool.isTerminated()); 

System.ou ronani ode tthe dd idiot de 


在 这 里 pool 是 一 个 ForkJoinPool 对 象 (例如 ForkJoinPool .commonPool () )。 使 用 这 段 代 
码 ， 将 得 到 下 面 这 样 的 输出 结果 。 


本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 


Parallelism: 2 

Pool Size: 2 

Active Thread Count: 2 
Running Thread Count: 9 
Queued Submission: 9 
Queued Tasks: 9 

Queued Submissions: false 
Steal Count: 9 

Terminated : false 

宁 率 订 素 订 床 订 素 率 杯 床 林 本本 厅 林 让 本 本 本 末末 


Mon Apr 17 23:23:32 CEST 2817-ForkJoinPool-1-worker-1: Working 5 seconds 
订 杯 本 本 本 本 本 本 本 本 亲本 本 本本 本 林 本 本 本 本 本 

Parallelism: 2 

Pool Size: 2 

Active Thread Count: 2 

Running Thread Count: 9 

Queued Submission: 8 

Queued Tasks: 8 

Queued Submissions: false 

Steal Count: 8 


Terminated : false 
本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 


12.1.5 监视 Phaser 


Phaser 是 一 种 同步 机 制 ， 允 许 执行 可 划分 为 多 个 阶段 的 任务 。 该 类 也 包含 一 些 用 于 获取 Phaser 状 
态 的 方法 。 
口 getArrivedParties () : 0 已 经 完成 当前 阶段 的 已 注册 参与 方 的 数量 。 
口 getUnarrivedParties(): 该 方法 返回 尚未 完成 当前 阶段 的 已 注册 参与 方 的 数量 。 
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口 getPhase() : 该 方法 返回 当前 阶段 的 编号 。 第 一 个 阶段 的 编号 为 0。 

口 getRegisteredParties(): 该 方法 返回 Phaser 中 已 注册 参与 方 的 数量 。 

口 isTerminated() : 该 方法 返回 一 个 布尔 值 ， 用 于 指示 Phaser 是 否 已 经 完成 执行 。 
可 以 使 用 如 下 代码 片断 获取 Phaser 的 相关 信息 。 


System.out n 

System.out .println("Arrived Parties: "+ phaser.getArrivedParties()); 

System.out .println("Unarrived Parties: "+ phaser.getUnarrivedParties()); 

System.out .println("Phase: "+phaser.getPhase()); 
加 nl 
nl 
t n 


1 七 中 火炎 火炎 火炎 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 下 . 
Brintl ; 


System.out .println("Registered Parties: "+ phaser.getRegisteredParties()); 


System.out .println("Terminated: "+phaser.isTerminated()); 
System.ou Noharaohent ( 玫 天 灾 光 炎炎 光 光 于 类 光 灶 克 光 克 灾 光大 风光 大 殉 克 光 于 灾 克 炎 赤 大 克 交 天光 于 克 光 炎 灾 大 大 克 大大 昌 ) 了 


这 段 代码 ， 可 以 得 到 如 下 输出 结果 。 


<terminated> MainPhaser [Java Application] C:\Program Files\Java\jdk-M\binVJavaw.exe 
本 本 本 本 本 本 本 本 本 本 本 亲本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本本 本 本 本 本 本 本 本 本 本 本 


Arrived Parties: 6 
Unarrived Parties: 4 
Phase: 9 

Registered Parties: 19 


Terminated: false 
素来 末末 末 本 末末 末末 本 六 本 本 末末 求 末末 本 本 末末 末末 本 本 本 末末 末末 末末 本 末末 末 本 来 末末 来 


不 本 本 本 本 本 本 本 本本 本 本 本 本 本 本 本 本 本本 本本 本 本本 水 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 本 


Arrived Parties: 8 
Unarrived Parties: 2 
Phase: 9 

Registered Parties: 19 


Terminated: false 
宁 本 本本 本本 本本 本 床 本末 本本 本 本 本本 本 本 本 本 本 本 本 本 本 本本 本 本 本 本本 本 本 本 林木 本 本 本 本 


12.1.6 ”监视 流 API 


流 机 制 是 Java 8 中 引入 的 最 重要 的 新 特性 之 一 。 它 允许 以 并 发 方式 处 理 大 规模 数据 集 ， 对 该 数据 
进行 转换 , 并 且 以 一 种 简单 的 方式 实现 MapReduce 编程 模型 。 该 类 并 不 提供 任何 获知 流 的 状态 的 方法 
(除了 isParallel () 方 法 ， 它 将 返回 流 是 否 为 并 行 的 )， 不 过 其 中 含有 一 个 名 为 peek () 的 方法 ， 可 
以 置 于 多 个 方法 的 流水 线 处 理 之 中 ， 用 以 输出 与 在 流 中 执行 的 操作 或 变换 相关 的 日 志 信息 。 

例如 ， 下 面 这 段 代 码 计算 了 前 999 个 数 的 平方 的 平均 值 。 


double result=IntStream.range(0,1000) 

.parallel () 

.peek(n -> System.out.println (Thread.currentThread() 
.getName()+": Number "+n)) 

.map (ln -> n*n) 

.peek(n -> System.out.println (Thread.currentThread!() 
.getName()+": Transformer "+n)) 

.average() 

.getAsDouble(); 


第 一 个 peek () 方 法 输出 该 流 处 理 的 数 , 而 第 二 个 peek () 方 法 则 输出 这 些 数 的 平方 。 如 果 执 行 
段 代码 ， 那 么 因为 你 是 以 并 发 方式 执行 该 流 的 ， 所 以 将 得 到 如 下 的 输出 结 


‘i 


o 
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<terminated> MainStream [Java Application] C:\Program FilesVavaNjdk-9%bin 
ForkJoinPool.commonPool-worker-1: Number 622 
ForkJoinPool.commonPool-worker-3: Transformer 186624 
ForkJoinPool .commonPool-worker-1: Transformer 386884 
ForkJoinPool.commonPool-worker-3: Number 433 
ForkJoinPool.commonPool-worker-1: Number 623 
ForkJoinPool .commonPool-worker-3: Transformer 187489 
ForkJoinPool.commonPool-worker-1: Transformer 388129 
ForkJoinPool .commonPool-worker-3: Number 434 
ForkJoinPool.commonPool-worker-1: Number 624 
ForkJoinPool.commonPool-worker-3: Transformer 188356 
ForkJoinPool .commonPool-worker-1: Transformer 389376 
ForkJoinPool.commonPool-worker-3: Number 435 
ForkJoinPool.commonPool-worker-3: Transformer 189225 
ForkJoinPool.commonPool-worker-3: Number 436 
ForkJoinPool.commonPool-worker-3: Transformer 198896 
Result: 332833.5 
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实现 Java 应 用 程序 时 ， 通 常 要 使 用 Eclipse 或 者 NetBeans 这 样 的 IDE 来 创建 项 目 并 编写 源 代码 。 
而 JDK (Java development kit ) 中 包含 了 可 用 于 编译 、 执 行 或 生成 Javadoc 文档 的 工具 。JConsole 就 是 
其 中 的 一 种 图 形 化 工具 ， 展 示 了 在 JVM 中 执行 的 应 用 程序 的 信息 。 可 以 在 JDK 安装 路 径 下 的 bin 目 
录 中 找到 它 (jconsole.exe )。 

如 果 执 行 该 工具 ， 就 会 看 到 如 下 这 样 的 窗口 。 


图 Java Monitoring & Management Console 口 


Connection Window Help 


New Connection | 


® Local Process: 


Name PD 

com.javferna.packtpub.mastering, textindexing,concurre... 6148 £ 
5240 

sun.tools.jconsole. JConsole 13276 


Note: The management agent vaill be enabled on this process. 


OO Remote Process: 


Usage: <hostname>:<port> OR service:jmo: <protocol>: <sap> 


Username: Password: 


T 一 "am 一 
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通过 在 Local Process 区 域 选 定 某 一 进程 , 可 以 监视 那些 在 计算 机 上 运行 的 进程 , 也 可 以 在 Remote 
Process 区 域 引入 远程 进程 的 数据 以 监视 远程 进程 。 

一 旦 选 定 进程 或 者 引入 想 要 监视 的 进程 的 数据 ， 点 击 Connect 按钮 。 可 以 看 到 一 个 提示 窗口 ， 告 
诉 你 正在 启动 一 个 不 安全 的 连接 。 该 窗口 与 下 图 相似 。 


Java Monitoring & Management Console 
Connection Window Help 


全 Secure connection failed. Retry insecurely? 
ee 
‘Would you like to try without SSL 
ore ee peepee Pin 


按 下 Insecure connection 按钮 。 

你 会 看 到 屏幕 上 有 6 个 选项 卡 。 

口 Overview: 该 选项 卡 展 示 了 有 关 该 应 用 程序 的 一 般 信 息 。 
口 Memory: 该 选项 卡 展示 了 有 关内 存 使 用 情况 的 信息 。 


口 Threads: 该 选项 卡 展示 了 应 用 程序 的 线程 随时 间 推 移 的 演变 情况 ， 而 且 人 允许 查看 某 一 线程 的 
详细 信息 /GO 


口 Classes: 该 选项 卡 展示 了 当前 加 载 类 的 信息 以 及 类 的 数量 。 
口 VM Summary: 该 选项 卡 展示 了 运行 进程 的 Java 虚拟 机 的 信息 。 


口 MBean: 该 选项 卡 展示 了 进程 的 MBean。Mbean 是 一 个 托管 的 Java 对 象 ， 可 以 表示 设备 、 应 | 
用 程序 或 者 任何 资源 ， 而 且 它 是 JMXAPI 的 基础 。 


在 接 下 来 的 各 小 节 , 你 将 了 解 可 在 每 个 选项 卡 中 获取 到 的 信息 。 你 可 以 通过 http://docs.oracle.com/ 
javase/7/docs/technotes/guides/management/jconsole.html 来 获取 有 关 该 工具 的 完整 文档 。 
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12.2.1 ”Overview 选项 卡 


如 前 所 述 ， 该 选项 卡 以 图 形 化 方式 展示 了 有 关 应 用 程序 的 一 般 信息 ,你 可 以 看 出 不 同时 间 取 值 的 
变化 。 这 些 信 息 包括 如 下 几 点 。 
口 Heap Memory Use: 该 图 展示 了 应 用 程序 使 用 的 内 存 大 小 。 它 也 展现 了 已 用 内 存 、 指 定 内 存 
和 最 大 内 存 。 
口 Threads: 该 图 展示 了 应 用 程序 所 使 用 线程 数 的 演变 情况 。 其 中 含有 程序 员 以 显 式 方式 创建 的 
线程 和 由 JVM 所 创建 的 线程 。 
口 Classes: 该 图 展示 了 应 用 程序 加 载 的 类 的 数量 。 
口 CPU Usage: 该 图 展示 了 应 用 程序 CPU 使 用 的 变化 情况 。 
其 外 观 类 似 于 如 下 的 屏幕 截图 。 


站 上 | java Monitarina RB Mananement Cansale = nid: 10752 cam iauferna nacktinuh mastering.textIndexing.concurrent,ConcurrentIndexing 一 口 
园 Connection Window Help - 可 X 
vi Memory Threads Classes VM Summary MBeans c 和 > 
Time Range: |All v 
Heap Memory Usage ] Threads 
600 Mb 20 
Used 
4 538,443,776 Live threads 
四 一 1189 
三 | 500 Mb 十 
| 4oo Mb 15 
T 网 
FP 
a 
300Mb 十 
200 Mb + 10 
一 + + 
00:22 00:22 
| £ 
Used: 538,4Mb Committed: 841Mb Max: 1,9Gb Live: 18 Peak: 18 Total: 18 
FrClasses 一 一 pe -CPU Usage 一 一 — | 
3,000 T 70,% 
60,% 
50,% 
40,% 
2,500 十 
30,% 
Loaded 20,% 上 
Ss 4 2.238 
10,% 4 
2.000 ~ 0,% 
pe Py 
00:22 00:22 
E Loaded: 2.238 Unloaded:0 Total: 2.238 CPU Usage: 8,9% 
， -一 一 
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12.2.2 ”Memory 选项 卡 


如 前 所 述 ， 该 选项 卡 以 图 形 化 方式 展示 了 应 用 程序 的 内 存 使 用 情况 。 你 可 以 查看 这 些 指标 随时 间 
的 变化 情况 。 该 选项 卡 的 外 观 如 下 所 示 。 


ii 


| 训 Connection Window Help 5 | x | 


Threads Classes VM Summary MBeans = 


Fe 
Overview 


Chart: |Heap Memory Usage vv Time Range: |All v| Perform GC 


600 Mb T 


Used 
500 Mb 十 4 502,267,904 


400 Mb +1 


中 300Mb 二 


200 Mb 


00:23 


Time: 2017-06-11 00:23:02 10096 -- 
Used: 381.952 kbytes 
Committed: 821.248 kbytes 
Max: 1.818.624 kbytes 50% ~ | 

GC time: 1,711 seconds on G1 Young Generation (24 collections) 259% -- 
0,000 seconds on G1 Old Generation (0 collections) 


| 
a 中 


ee 


在 屏幕 的 上 方 ， 有 一 个 供 你 选择 内 存 类 型 的 下 拉 菜 单 。 该 菜单 提供 了 多 种 不 同 的 选项 ,例如 堆 内 
存 、 非 堆 内 存 , 以 及 特定 的 内 存 工 具 , 例如 Eden Space 用 于 展示 最 初 为 大 多 数 对 象 分 配 的 内 存 的 信息 ， 
而 Survivor Space 则 用 于 展示 维持 Eden Space 垃圾 收集 器 的 对 象 所 使 用 的 内 存 。 

之 后 ， 可 以 得 到 选 定 元 素 随时 间 演 变 的 图 示 。 最 后 ， 还 有 一 个 Details 区 域 ， 用 于 展示 内 存 消耗 
言 息 。 
口 Used 区 : 展示 应 用 程序 当前 的 内 存 使 用 量 。 
口 Committed 区 : 用 于 保障 JVM 执行 的 内 存量 。 
口 Max 区 : JVM 可 以 使 用 的 最 大 内 存量 。 
口 GC time 区 : 花费 在 垃圾 收集 上 的 时 间 。 
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12.2.3 ”Threads 选项 卡 


如 前 所 述 ， 在 Threads 选项 卡 中 ， 可 以 看 到 应 用 程序 的 线程 随时 间 的 变化 情况 。 该 选项 卡 的 外 观 
如 下 所 示 。 


lg) lava Monitarinn Ri Mananement Consnle -nid: 10757 cam iauferna narktnuh mactering textlndexing.concurrent.Concurrentlndexing 一 
图 Connection Window Help 二 百 X 
下 Overview Memory Threads Classes VM Summary MBeans SP 
Time Range: |All v | 
-Number of Threads ， 从 
20 
Peak 
18 
网 Jive threads 
EE 4 ”18 
bi 
上: 
15 加 
中 
10 
| + 
| 00:23 
k 
Threads 
4 计 
main A |Name : pool-1-thread-1 | | 
Reference Handler State: RUNNABLE 
Finalizer Total blocked: 30 Total waited: 2 
Signal Dispatcher 
Attach Listener 
Common-Cleaner Stack trace: 
Thread-0 java.base@9-ea/sun.nio.ch.FileDispatcherImpl.read0 (Native Method) 
Thread-1 java.base@9-ea/sun.nio.ch.FileDispatcherImpl .read (FileDispatcherImpl .java:52) 
pool-1-thread-1 java.base@9-ea/sun.nio.ch.IOUtil.readIntoNativeBuffer (IOUtil .java:223) | 
pool-1-thread-2 java.base@9-ea/sun.nio.ch.IOUtil.read (IOUtil.java:197) 上 
pool-1-thread-3 java.base@9-ea/sun.nio.ch.FileChannelImpl .read (FileChannelImpl .java:165) 
RMI TCP Accept-0 J 
tC a er - locked java.lang.Object@4965b42d 
RMI Se on(1)-192.168.99. java.base@9-ea/sun.nio.ch.ChannelInputStream.read (ChannelInputStream.java:65) 
MY cerver rnnnarfinn timemit 71 ™ |java.base@9-ea/sun.nio.ch.ChannelInputStream.read(ChannelInputStream.java:109) ~ 
< > 二 学 
|Fiter | | | Detect Deadlock | 
-一 


该 屏幕 展示 了 线程 数 随时 间 变 化 的 演变 情况 。 你 将 看 到 两 个 数值 。Live Threads 是 当前 正在 运行 
的 线程 数 ， 而 Peak 线程 数 则 是 最 大 线程 数 。 

在 底部 ， 窗 口 的 左 部 是 所 有 当前 所 有 线程 的 列表 。 如 果 选 定 其 中 一 个 线程 ,那么 在 右 侧 就 会 看 到 
关于 该 线程 的 信息 ， 例 如 该 线程 的 名 称 、 状 态 和 当前 栈 追 踪 情 况 。 


12.2.4 ”Classes 选项 卡 
Classes 选项 卡 展 示 了 当前 加 载 类 的 信息 。 该 选项 卡 的 外 观 如 下 所 示 。 


12.2 ”监视 并 发 应 用 程序 281 


四 [| lava Monitorinn RB Mananement Cansnle - bi 中 N75 cam iauferna nacktinubh macstering.textindexing.concurrent.Concurrentindexing -3 
“图 Connection Window Help -||5||x 
Fc 
Overview Memory Threads Classes VM Summary MBeans SP 
Time Range: AAI v| 
FNumber of Loaded Classes 
3,000 
p' 
Io: 
加 
| 
a 
2,500 
Total Loaded 
上 1 


一 一 


Loaded 
4 2.286 
ES RE | 
> 


2,.000 


00:23 


| -Details 


Time: 2017-06-11 00:23:38 

Current classes loaded: 2.286 目 
Total classes loaded: 2.289 
Total classes unloaded: 3 


该 选项 卡 的 上 方 展示 了 一 幅 图 ， 表现 了 应 用 程序 随时 间 变 化 加 载 类 的 数量 的 演变 情况 。 图 中 的 红 
线 表示 应 用 程序 加 载 的 类 的 总 数 ， 而 蓝 线 则 表示 当前 加 载 的 类 的 数量 。 
选项 卡 的 底部 是 细节 展示 区 ， 其 中 含有 当前 信息 。 
口 当前 加 载 的 类 。 
口 总 共 加 载 的 类 。 
口 尚未 加 载 的 类 。 


12.2.5 ”VM Summary 选项 卡 
VM Summary 选项 卡 展示 了 有 关 Java 虚拟 机 的 信息 。 该 选项 卡 的 外 观 如 下 所 示 。 2 
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辣 _ ll lava Manitorinn A 


Mananement Cansnle - nid: 10752 cam iavfer 


图 connection Window Help 


‘ Overview Memory Threads Classes VMSummary MBeans 


VM Summary 


domingo., 11 de junio de 2017., 0:23:50 (hora de verano de Europa central) 


Connection name: 


Virtual Machine: 
Vendor: 
Name: 


pid: 10752 
com.javferna packtpub.mastering.textIndexing.concurrent.ConcurrentIndexing 
Java HotSpot(TMD 64-Bit Server VM version 9-ea+165 

Oracle Corporation 

10752@PortatiilHP 


Uptime: 

Process CPU time: 
JIT compiler: 
Total compile time: 


1 minute 
1 minute 
HotSpot 64-Bit Tiered Compilers 


25.180 seconds 


Live threads: 18 

Peak: 18 

Daemon threads: 12 
Total threads started: 18 


Current classes loaded: 2.286 
Total classes loaded: 2.289 
Total classes unloaded: 3 


Current heap size: 501.248 kbytes 


Maximum heap size: 1.818.624 kbytes 
Garbage collector: Name='G1 Young Generation', Collections = 32, Total time spent = 2.345 seconds 
Garbage collector: Name='G1 Old Generation', Collections = 0, Total time spent = 0.000 seconds 


Committed memory: 821.248 kbytes 


Pending finalization: 0 objects 


Operating System: Windows 10 100 


Architecture: 
Number of processors: 
Committed virtual memory: 


amd64 
4 
951.532 kbytes 


Total physical memory: 7.273.972 kbytes 
Free physical memory: 1.475.004kbytes 
Total swap space: 8.453.620 kbytes 


Free swap space: 1.336.088 kbytes 


VM arguments: -Dfile encoding=Cp1252 
Class path: C:\books2\java9-mastering\workspace\TextIndexing\bin 
Library path: C:Program FilesJavajdk-9ibin:C4YWINDOWSSunJavalbin:C4WINDOWSsystem32:C4JWINDOWS:C:Program 
FilesJavajdkl 8.0_121/bin/. /jreibin/server:C:/Program FilesJavaljdk1.8.0_1217bin/_jjreybin:CJProgram 


n 


如 图 所 示 ， 该 选项 卡 展示 了 如 下 信息 。 
口 摘要 区 域 : 这 一 块 区 域 展 示 了 有 关 正 在 运行 进程 的 Java 虚拟 机 实现 的 信息 。 
加 Virtual Machine: 正在 执行 进程 的 Java 虚拟 机 的 名 称 。 
加 Vendor: 实现 该 Java 虚拟 机 的 组 织 名 称 。 
得 Name: 运行 进程 的 机 需 名 称 。 
晶 Uptime: 从 JVM 启动 到 现在 经 过 的 时 间 。 
加 Process CPU time: JVM 消耗 的 CPU 时 间 。 
口 线程 区 域 : 该 区 域 展 示 了 有 关 应 用 程序 线程 的 信息 。 
加 Live threads: 当前 运行 的 线程 总 数 。 
和 Peak: 在 JVM 中 执行 的 最 高 线程 数 。 
曙 Daemon threads: 当前 运行 的 守护 线程 总 数 。 
加 Total threads started: 自 JVM 开始 运行 后 开始 执行 的 线程 总 数 。 
口 类 区 域 : 该 区 域 展示 了 有 关 应 用 程序 类 的 数量 的 信息 。 
加 Current classes loaded: 当前 加 载 到 内 存 中 的 类 的 数量 。 
加 Total classes loaded: JVM 开始 运行 后 加 载 到 内 存 中 的 类 的 数量 。 
加 Total classes unloaded: JVM 开始 运行 后 从 内 存 中 钊 载 的 类 的 数量 。 
口 内 存 区 : 该 区 域 展示 了 应 用 程序 的 内 存 使 用 情况 。 
当前 堆 的 规模 。 


pa 


@ Current heap size: 


12.2 ”监视 并 发 应 用 程序 283 


和 Committed memory: 为 堆 的 使 用 分 配 的 内 存 总 量 。 
四 Maximum heap size: 堆 的 最 大 规模 。 
昌 Garbage collector: 垃圾 收集 器 的 相关 信息 。 
口 操作 系统 区 : 该 区 域 展示 了 有 关 执 行 Java 虚拟 机 的 操作 系统 的 信息 。 
得 Operating System: 运行 JVM 的 操作 系统 的 版 本 。 
和 Number of Processors: 计算 机 所 配置 的 核 的 数量 或 CPU 数量 。 
加 Total physical memory: 操作 系统 可 用 的 RAM 总 量 。 
加 Free physical memory: 操作 系统 可 用 的 空闲 RAM 总 量 。 
得 Committed virtual memory: 保证 当前 进程 运行 的 内 存 。 
口 其 他 信息 : 该 区 域 展示 了 关于 Java 虚拟 机 的 其 他 信息 。 
和 VM arguments : 传递 给 JVM 的 参数 。 
加 Class path: JVM 的 类 路 径 。 
四 Library path: JVM 的 库 路 径 。 
四 Boot class path: JVM 寻找 java.* 和 javax.* 类 的 路 径 。 


12.2.6 MBeans 选项 卡 
MBeans 选项 卡 展 示 了 所 有 在 平台 上 注册 的 MBean 的 信息 。 该 选项 卡 的 外 观 与 下 图 类 似 。 


WT Cancale = pid 10752 com iavferna nacktnub macteriqg textindexing.concurrent.Concurrentindexing 口 
“图 connection Window Help - sl x|| 
5 Overview Memory Threads Classes VM Summary MBeans | 
国 | | JMImplementation A | [-Attribute value 
ee Name Value 
日 java,lang 
生食 ClassLoading [ThreadCount Il17 
由 - 哺 Compilation | Refresh 
由 -| GarbageCollector 
由 : 由: 叶 Memory -MBeanAttributeInfo 
"| 由 MemoryManager | Wane Va 
由 -| MemoryPool 
中 . 国 operatingsystem ttribute: 
由 . 团 Runtime Name [ThreadCount 
自 - 团 Threading Description [ThreadCount 1 
白 .Attrbutes Readable true HH 
ThreadAlocat | | writable false 
ThreadAalocat | | Es lfalse 
ThreadConter | | pe 一 
CurrentThrea 
上 ObjectMonitol 
Syncdhronizerl| 上 
ThreadConter 
ThreadCpuTin 
PeakThreadC， 
“DaemonThrea 
[ee 
TotalStartedT Name Value 
eos Attribute: 
‘CurrentThrea | | lopenType lavax. management. openmbean. SimpleType (name =java.lang.Integer) 
Curentrhrea 上 | orignarrype 二 
:ThreadCpuTin| 
ObjectName 
日 -Operations [ 
‘getThreadCp 上 
getThreadCp. 
-getThreadUse 呈 
‘getThreadUse 
‘getThreadAllc 
getThreadAllc 
-getThreadInfi 
netThreadinfi 
AlL< | 
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在 该 选项 卡 的 左 侧 ， 可 以 在 目录 树 中 看 到 所 有 正在 运行 的 MBean。 选 定 其 中 一 项 ,将 在 选项 卡 的 
右 侧 看 到 MBean Info 和 MBean Descriptor 的 内 容 。 

并 发 应 用 程序 可 用 Threading MBean 表示 ， 它 共有 两 个 区 域 。Attributes 区 域 包含 MBean 的 属性 ， 
而 Operations 区 域 包含 所 有 可 以 通过 该 MBean 运行 的 操作 。 


12.2.7 ”About 选项 卡 


最 后 ， 通 过 Help 菜单 中 的 About 选项 ， 可 以 获得 当前 执行 的 JConsole 的 版 本 信息 。 你 会 看 到 类 
似 如 下 的 窗口 。 


bl lava Manitorina B Mananement Console =- nicd: 10752 cam iauferna nacktinuh mactering.textindexing.concurrent.ConcurrentIndexing > 
一 | 


"图 Connection Window Help 


F Overview Memory Threads Classes VM Summary MBeans = 


JMImplementation ~ || FAttribute value 


com.sun.managemen Name Value 
日 java.lang 


畏 ClassLoading [headcont | 
蔚 Compilation | Refresh 
GarbageCollector [|] 
忆 吕 Memory -MBeanAttributeInfo 
p' MemoryManager 
MemoryPool 
EE: 名 OperatingSystem 
博 Runtime 
是- 贸 Threading 

日 -Attributes 

:ThreadAllocat 


ThreadAllocat 

Threadconterl | | De About JConsole 

:CurrentThrea 

-ObjectMonito! 

| i ee JConsole version: f 
ThreadCpuTin 9-ea+165 
:PeakThreadC 
;DaemonThrez Java VM version: 
l [Desd| Java HotSpot(TM) 64-Bit Server VM, 9-ea+165 
-TotalStartedT 
AllThreadIds 
:CurrentThrea 
CurrentThrea 
-ThreadCpuTin 

ObjectName 

日 -Operations 
-getThreadCpt 
:getThreadCpt 
-getThreadUse | 
;getThreadUse 
-getThreadAllc 
-getThreadAllc 
-getThreadInfi 
netThreadinfi | 

> 


http;//docs.oracle.com/iavase/9/docs/technotes/guides/management/iconsole.html 


12.3 ”测试 并 发 应 用 程序 


测试 并 发 应 用 程序 是 一 项 艰巨 的 任务 。 应 用 程序 的 线程 在 计算 机 上 运行 时 无 法 保证 任何 执行 顺序 
( 除非 引入 了 同步 机 制 )， 因 此 很 难 〈 大 部 分 情况 下 是 不 可 能 ) 对 所 有 可 能 出 现 的 情况 都 进行 测试 。 还 
有 些 错 误 不 可 能 进行 重 现 ， 因 为 它们 仅 发 生 在 偶然 或 者 独特 的 场合 中 。 或 者 由 于 CPU 核 数 的 原因 ， 
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错误 会 在 一 台 机 右上 发 生 但 是 不 会 在 男 一 台 上 发 生 。 为 探查 和 重 现 这 些 场 景 ， 就 要 使 用 不 同 的 工具 。 
口 Depug: 可 以 使 用 调试 器 调试 应 用 程序 。 如 果 应 用 程序 中 仅 有 少量 线程 ， 这 个 过 程 将 会 非常 
枯燥 ， 而 且 需 要 在 每 个 线程 中 都 一 步 一 步 地 进行 调试 。 可 以 对 Eclipse 或 NetBeans 进行 配置 以 


测试 并 发 应 用 程序 。 

口 MultithreadedTC: 这 是 Google Code 的 一 个 备案 项 目 ， 可 用 于 在 并 发 应 用 程序 中 强制 规定 执行 
顺序 。 

口 Java PathFinder: 这 是 NASA 用 于 验证 Java 程 序 的 一 种 执行 环境 。 它 还 支持 对 并 发 应 用 程序 的 
有 效 性 验证 。 

口 Unit testing: 可 以 创建 一 组 单元 测试 (使 用 JUnit 或 者 TestNG )， 并 且 多 次 进行 每 个 测试 〈 例 


如 1000 次 ) 如 果 每 个 测试 都 成 功 了 ， 那 么 即使 应 用 程序 出 现 竞 争 ， 其 可 能 性 也 并 不 高 ， 也 是 

可 被 生成 环境 所 接受 的 。 你 可 以 在 自己 的 代码 中 加 入 一 些 断 言 ， 以 此 验证 是 否 存 在 竞争 条 件 。 

在 下 面 的 各 节 中 , 你 将 看 到 使 用 MultithreadedTC 和 Java PathFinder 工具 测试 并 发 应 用 程序 的 一 些 
基本 例子 。 


12.3.1 使 用 MultithreadedTC 测试 并 发 应 用 程序 


MultithreadedTC 是 一 个 备案 项 目 , 可 以 通过 网 址 http://code.google.com/p/multithreadedtc/ 下 载 。 它 
的 最 新 版 本 是 2007 年 发 布 的 ， 不 过 仍然 可 以 使 用 它 测试 小 型 并 发 应 用 程序 或 者 单独 测试 大 型 应 用 程 
序 的 部 件 。 尽 管 不 能 用 它 测试 实际 任务 或 者 线程 ,但 是 可 以 使 用 它 测试 不 同 的 执行 顺序 ， 从 而 检验 是 
否 会 导致 竞争 条 件 或 者 死 锁 。 

它 基于 一 个 内 部 时 钟 进行 计时 ， 该 时 钟 可 以 控制 不 同 线程 的 执行 顺序 ， 以 测试 该 执行 顺序 是 否 会 
导致 什么 并 发 问题 。 

首先 ， 需 要 将 两 个 库 关 联 到 项 目 中 。 

口 MultithreadedTC 库 : 最 新 版 本 是 1.01 版 。 
口 JUnit 库 : 我 们 使 用 4.12 版 测试 了 这 个 例子 。 

要 使 用 MultithreadedTC 库 实 施 测 试 ， 要 扩展 MultithreadedTestCase 类 ， 该 类 扩展 了 JUnit 
库 的 Assert 类 。 可 以 实现 如 下 方法 。 
D initialize(): 该 方法 将 在 测试 执行 开始 时 执行 。 如 果 需 要 执行 初始 化 代码 以 创建 数据 对 
象 、 数 据 库 连 接 等 ， 可 以 重 载 该 方法 。 

口 finish() : 该 方法 将 在 测试 执行 结束 后 执行 。 可 以 对 其 重 载 以 实现 对 测试 的 验证 。 
口 threadXXX() : 可 以 为 测试 中 的 每 个 线程 实现 一 个 名 称 以 thread 关键 字 开 头 的 方法 。 例 如 ， 
如 果 想 要 测试 三 个 线程 ， 就 要 在 自己 的 类 中 实现 三 个 方法 。 

MultithreadedTestCase 类 提供 了 waitForTick() 方 法 。 该 方法 接收 你 要 等 待 的 时 数 作为 参 
数 。 该 方法 使 调用 线程 休眠 ， 直 到 内 部 时 钟 达 到 该 时 刻 为 止 。 

第 一 个 时 刻 是 时 数 为 0 的 时 刻 。MoultithreadedTC 框架 以 特定 时 间 间 隔 检查 测试 线程 的 状态 。 如 果 
所 有 运行 的 线程 都 在 waitForTick() 方 法 中 等 待 ， 那 么 它 将 增加 时 数 ， 并 且 唤 醒 所 有 等 待 该 时 刻 的 
线程 。 


CY 


< 
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ull 


下 面 看 一 个 使 用 它 的 例子 。 假设 要 测试 一 个 Data 对 象 内 部 的 int 属性 , 需要 一 个 线程 来 增加 该 属性 
的 值 和 一 个 线程 来 减 小 该 属性 的 值 。 可 以 创建 一 个 名 为 restclassok 的 类 扩展 MultithreadedTestCase 
类 。 我 们 用 到 了 数据 对 象 的 三 个 属性 : 将 要 增加 的 数据 量 、 将 要 减少 的 数据 量 和 数据 的 初始 值 ， 代 码 
如 下 : 


public class TestClassOk extends MultithreadedTestCase { 


private Data data; 
private int amount; 
private int initialData; 


public TestClassOk (Data data, int amount) { 
this.amount=amount; 

this.data=data; 
this.initialData=data.getData(); 

} 


我 们 实现 两 个 方法 来 模拟 两 个 线程 的 执行 。 第 一 个 线程 在 threadaga() 方 法 中 实现 。 


public voidq threadAdd() { 
System.out .println("Add: Getting the data"); 
int value=data.getData(); 
System.out .println("Add: Increment the data"); 
value+=amount; 
System.out .println("Add: Set the data"); 
data.setData(value); 


} 
该 方法 读 取 数据 的 值 ， 增 加 其 值 ， 并 且 再 次 输出 数据 的 值 。 第 二 个 方法 在 threadsup() 方 法 中 


Lb 


public void threadSub() { 
waitForTick(1); 
System.out.println("Sub: Getting the data"); 
int value=data.getData(); 
System.out.println("Sub: Decrement the data"); 
value-=amount; 
System.out .println("Sub: Set the data"); 
data.setData (value); 


} 
首先 ， 等 待 时 刻 1。 然 后 ， 获 取 该 数据 的 值 ， 减 少 其 值 ， 并 且 重 新 输出 该 数据 的 值 。 
为 了 执行 该 测试 ， 可 以 使 用 TestFramework 类 的 runonce () 方 法 。 


public class MainOk { 


public static void main(String[] args) { 


Data data=new Data(); 
data.setData(10); 
TestClassOk ok=new TestClassOk (data,10); 
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try { 
TestFramework.runOnce (ok); 

} catch (Throwable e) { 
e.printSstackTrace(); 


} 


} 
} 


当 测 试 开始 执行 时 , 两 个 线程 (threadadd() 和 thnreadSub() ) 以 并 发 方式 启动 。 threadAdq() 
线程 开始 执行 其 代码 ， 而 threadsub () 线 程 则 在 waitForTick () 方 法 中 等 待 。 当 threadaAdd ( ) 线 
程 完成 执行 后 , MultithreadedTC 的 内 部 时 钟 探测 到 在 waitForTick() 方 法 中 只 有 一 个 线程 正在 等 待 ， 
因此 它 将 时 数 增加 到 1， 并 且 唤 醒 执行 其 代码 的 线程 。 

在 下 面 的 屏幕 截图 中 ， 将 看 到 执行 本 例 后 的 输出 结果 。 在 这 种 情况 下 ， 一 切 都 运行 正常 。 


terminated> MainOk [Java Application] C:\Program Files\Java\yjdk-\bin\Javaw.exe (| 
Add: Getting the data 

Add: Increment the data 

Add: Set the data 

Sub: Getting the data 

Sub: Decrement the data 

Sub: Set the data 


， 你 可 以 改变 线程 的 执行 顺序 以 产生 一 个 错误 。 例如， 可 以 按 下 面 的 顺序 实现 ， 它 将 导致 一 
A 


public voidq threadAdd() { 
System.out .println("Add: Getting the data"); 
int value=data.getData(); 
waitForTick (2); 
System.out .println("Add: Increment the data"); 
value+=amount; 
System.out .println("Add: Set the data"); 
data.setData(value); 


} 


public void threadSub() { 

waitForTick(1); 

System.out .println("Sub: Getting the data"); 
int value=data.getData(); 

waitForTick(3); 
System.out .println("Sub: Decrement the data"); 
value-=amount; 
System.out.println("Sub: Set the data"); 
data.setData(value); 


} 

在 这 种 情况 下 ， 执 行 顺序 要 保证 两 个 线程 都 首先 读 取 数 据 的 值 ， 然 后 进行 操作 ， 因 此 最 后 的 结 引 
就 不 会 正确 。 

在 下 面 的 屏幕 截图 中 ， 可 以 看 到 该 例 的 执行 结果 。 
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<terminated> MainKo [Java Application] C:\Program FilesVavaydk-9\binWavaw.exe (11jun.2017 
Add: Getting the data 
Sub: Getting the data 
Add: Increment the data 
Add: Set the data 
Sub: Decrement the data 
Sub: Set the data 
junit.framework.AssertionFailedError: expected:<19> but was:<@> 
at junit.framework.Assert.fail(Assert. java:57) 
at junit.framework.Assert.failNotEquals(Assert. java:329) 
at junit.framework.Assert.assertEquals(Assert. java:78) 
at junit.framework.Assert.assertEquals(Assert. java:234) 
at junit.framework.Assert.assertEquals(Assert. java:241) 
at com.javferna.packtpub.mastering.testing.tc.TestClassKo.finish( 
at edu.umd.cs.mtc.TestFramework.runOnce(TestFramework. java:285) 


at edu.umd.cs.mtc.TestFramework.runOnce(TestFramework. java:235) 


在 这 种 情况 下 ，assertEauals() 方 法 会 抛 出 一 个 异常 ， 因 为 预期 的 值 和 实际 值 不 一 样 。 


该 库 的 主要 缺陷 在 于 ， 它 仅 对 测试 基本 的 并 发 代码 有 用 ， 


真实 的 线程 代码 。 


12.3.2 ”使 用 Java Pathfinder 测试 并 发 应 用 程序 


Java Pathfinder (或 者 说 JPF ) 是 NASA 的 一 个 开源 执行 环境 ， 可 以 用 于 验证 Java 应 用 程序 。 它 


因此 当 你 实施 测试 时 ， 不 能 用 它 来 测试 


含有 自己 的 虚拟 机 ， 


的 执行 顺序 。 它 还 含有 一 些 工具 ， 可 以 帮助 检测 竞争 条 件 和 死 锁 。 
该 工具 的 主要 优点 在 于 ， 它 允许 你 完整 地 测试 并 发 应 用 程序 ,保证 应 


用 于 执行 Java 字 节 码 。 从 内 部 来 看 , 它 探测 代码 中 那些 可 以 有 多 条 执行 路 径 的 节 
点 ， 并 且 执 行 所 有 可 色 


E 的 路 径 。 在 并 发 应 用 程序 中 ， 这 意味 着 它 将 执行 应 用 程序 中 线程 之 间 所 有 可 能 


死 锁 。 该 工具 还 有 一 些 不 太 方 便 的 地 方 。 


口 需要 从 其 源 代 


码 安装 它 。 


口 如 果 应 用 程序 很 复杂 ， 将 有 成 千 上 万 种 可 能 的 执行 路 径 ， 这 样 测试 过 程 就 会 耗 时 很 长 〈 如 


应 用 程序 很 复 


杂 ， 很 可 能 会 花费 许多 时 间 ) 。 


下 面 的 各 节 将 展示 如 何 使 用 Java Pathfinder 测试 并 发 应 用 程序 。 


1. 安装 Java Pa 


thfinder 


程序 不 会 出 现 竞 争 条 件 和 


a 


如 前 所 述 , 需要 从 源码 安装 JPF。 该 源码 位 于 Mercurial 资源 库 ， 因 此 第 一 步 是 安装 Mercurial， 而 


四 


| 因为 我 们 将 用 到 Eclipse IDE ， 所 以 还 需要 安装 Mercurial plugin for Eclipse。 


接着 , 请 下 载 Mercurial。 你 下 载 的 安装 程序 应 该 提供 了 安装 助手 ,可 将 Mercurial 安装 到 计算 机 。 
在 Mercurial 安装 完毕 之 后 ， 可 能 需要 重启 计算 机 。 
可 以 使 用 Eclipse 菜单 中 的 Help | Install new software 选项 下 载 Mercurial plugin for Eclipse。 这 和 安 


站 


装 其 他 插件 的 步骤 相同 。 


还 可 以 安装 一 个 JPF plugin for Eclipse。 


现在 可 以 访问 Mercurial 资源 库 的 浏览 器 视图 ,并 | 


日 添 加 Java Pathfinder 资源 库 。 我 们 将 仅 使 用 在 


http:/Wbabelfish.arc.nasa.gowhgyipVjpfcore 中 存放 的 核心 模块 。 访 问 该 资源 库 并 不 需要 用 户 名 或 密码 。 


当 你 创建 了 该 资源 库 后 ， 可 以 右键 点 击 该 资源 库 ， 在 菜单 中 选择 Clone repository 选项 ， 将 其 源码 下 载 到 


计算 机 。 该 选项 将 打 姑 


F 一 个 窗口 ， 其 中 有 一 些 选 项 可 供 选择 ， 不 过 可 以 保留 默认 值 并 


量 点 击 Next 按钮 。 
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然后 ， 选 择 要 下 载 的 版 本 。 保 留 默 认 值 ， 并 且 点 击 Next 按钮 。 最 后 ， 点 击 Finish 按钮 完成 下 载 过 程 。 
Eclipse 将 自动 运行 ant 以 编译 该 项 目 。 如 果 出 现 了 编译 问题 ， 就 必须 先 解决 这 些 问 题 并 且 重 新 启动 ant。 
如 果 一 切 正 常 ， 工 作 空间 中 将 出 现 一 个 名 为 jpf-core 的 项 目 ， 如 下 面 的 屏幕 截图 所 示 。 


鼎 P 


3 展 Type Hierarchy 加 


各 srd/peers 
b 袁 srd/dlasses 
国 srcwannotations 
各 srd/eamples 
各 srctests 
BN JRE System Library [jrel.8.0_65] 
by 人 bin 
Bh doc 
》 Bh eclipse 
区 META-INF 
Bm nbproject 
入 src 
司 build.properties 
易 buildxml 
加 jpf.properties 
图 HCENSE-20.bt 
国 README 
@ Testinformation 


最 后 一 个 配置 步骤 是 通过 对 JPF 的 配置 创建 一 个 名 为 site.properties 的 文件 。 如 果 你 点 击 Window | 
Preferences 菜单 访问 配置 窗口 ， 并 日 选择 JPF Preferences 选项 ， 将 看 到 JPF 用 于 查找 该 文件 的 路 径 。 
如 果 需 要 ， 可 以 更 改 该 路 径 。 


Fr 
合 preferences 


type filter text 
> General 
Ant 
Code Recommenders 
Help 
Install/Update 
Java 
JPF Preferences 
Maven 


Mylyn 

b Oomph 

Run/Debug 

》 Team 
Validation 

》 WindowBuilder 

> XML 


©® © 


JPF Preferences - vv 


Set the properties for Eclipse-JPF 


Shell Port Number: 4242 
Path to site.properties D:\dev\book\site.properties 
JPF's Arguments 


JPF's Host VM Arguements 


Apply 


| Restore Defaults | | 


因为 我 们 将 仅 使 用 核心 模块 ， 所 以 该 文件 将 仅 记录 jpf-core 项 目的 路 径 。 


jpf-core = 


D:/dev/book/projectos/jpf-core 
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2. 运行 Java Pathfinder 

安装 了 JPF 之 后 ,看 看 如 何 使 用 它 测试 并 发 应 用 程序 。 首 先 要 实现 一 个 并 发 应 用 程序 。 在 我 们 的 
例子 中 ， 将 使 用 一 个 Data 类 ， 它 带 有 一 个 内 部 的 int 值 。 该 值 的 初始 状态 为 0。Data 类 中 有 一 个 
increment () 方 法 用 于 增加 其 值 。 

然后 , 还 有 一 个 名 为 NumberTask 的 任务 , 它 实 现 了 Runnable 接口 , 将 对 Data 对 象 的 值 做 10 
次 递增 操作 。 


public class NumberTask implements Runnable { 


private Data data; 


public NumberTask (Data data) { 
this.data=data; 
} 


QOverride 
public void run() { 


for (int i=0; i<10; i++) { 
data.increment (10); 
} 


} 


最 后 ， 还 有 一 个 实现 main () 方 法 的 MainNumber 类 。 我 们 将 启动 两 个 NumberTasks 对 象 来 修 
改 同 一 Data 对 象 。 最 后 会 得 到 Data 对 象 的 最 终 值 。 


public class MainNumber { 


public static void main(String[] args) { 
int numTasks=2; 
Data data=new Data(); 


Thread threads[]=new Thread[numTasks]; 

for (int i=0; i<numTasks; i++) { 
threads[i]=new Thread(new NumberTask (data)); 
threads[i].start(); 

3 


for (int i=0; i<numTasks; i++) { 

try { 
threads[i] .join(); 

} catch (InterruptedException e) { 
e.printStackTrace(); 


} 
} 


System.out .println(data.getValue()); 
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如 果 一 切 正常 并 且 没 有 竞争 条 件 出 现 ， 最 终 的 结果 将 是 200， 但 是 代码 并 未 采用 任何 同步 机 制 ， 
因此 很 可 能 出 现 竞 争 条 件 。 
如 果 使 用 JPF 执行 该 应 用 程序 ， 需 要 在 项 目 中 创建 一 个 扩展 名 为 .jpf 的 配置 文件 。 例 如 ， 我 们 创 
建 了 NumberJPF.jpf 文件 ， 其 中 含有 要 用 到 的 最 基本 的 配置 。 


+Cclasspath=$ {config path}/bin 
target=com.javferna.packtpub.mastering.testing.main.MainNumber 


修改 JPF 的 类 路 径 ， 添 加 项 目的 bin 目录 ,并 且 指 明 应 用 程序 的 主 类 。 现 在 ,准备 通过 JPF 执行 
应 用 程序 。 为 此 ， 右 键 点 击 ;jpf 文件 并 且 从 弹出 菜单 中 选择 Verify 选项 。 我 们 将 在 控制 台中 看 到 大 量 
输出 消息 。 每 条 输出 消息 都 来 自 于 应 用 程序 的 一 条 不 同 的 执行 路 径 。 


届 problems @ Javadoc 加 Declaration $Y Search 园 Console 3 
NumberJPF.jpf(run) 


Executing command: java -jar D:\dev\book\proyectos\jpf-core\build\RunJPF.jar +site=D:\dev\book\site.prope 
JavaPathfinder core system v8.0 (rev 29) - (C) 2665-2614 United States Government. All rights reserved. 


三 = 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 二 三 二 三 三 二 三 二 三 二 二 二 三 二 二 ====== system under test 
com. javferna.packtpub.mastering.testing.main.MainNumber .main() 


====================================================== Search started: 3/12/15 2:26 


将 | Pn 


当 JPF 结束 所 有 可 能 执行 路 径 的 执行 后 ， 它 会 给 出 有 关 执 行 过 程 的 统计 信息 。 


79 

66 

59 

40 

39 

29 

====================================================== results 

no errors detected 
====================================================== statistics 
elapsed time: 80:00:16 

states: new=72199,visited=181549,backtracked=173748,end=57 
search: maxDepth=67, constraints=@ 

choice generators: thread=72199 (signal=8,lock=2,sharedRef=65612,threadApi=1584,reschedule=5681), data=0 
heap: new=632,released=1381,maxLive=379,gcCycles=173619 
instructions: 1721841 

max memory: 353MB 

loaded code: classes=64,methods=1476 


====================================================== search finished: 3/12/15 2:27 


JPF 的 执行 结果 显示 并 未 检测 到 错误 ,但 是 可 以 看 到 ， 大 多 数 结果 都 不 是 200， 因 此 应 用 程序 存 
在 预期 的 竞争 条 件 。 

12.3.2 节 开 头 曾 提 到 ,JPF 提供 了 探测 竞争 条 件 和 死 锁 的 工具 。JPF 通过 一 种 Listener 机 制 实 现 
这 些 功 能 ， 它 实现 了 观察 者 (observez ) 模式 ， 对 代码 执行 过 程 中 发 生 的 特定 事件 做 出 响应 。 例 如 ， 
可 以 使 用 下 面 的 监听 占 。 
口 PreciseRaceDetector: 使 用 该 监听 器 探测 竞争 条 件 。 


口 Deadlockanalyzer: 使 用 该 监听 器 探测 死 锁 情 况 。 
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口 CoverageAnalyzer: 使 用 该 监听 器 在 JPF 执行 结束 后 输出 覆盖 率 信 息 。 

可 以 在 .jpf 文件 中 配置 要 使 用 的 监听 器 ， 该 文件 中 含有 执行 过 程 的 配置 情况 。 例 如 ， 我 们 对 此 前 
NumberListenerJPF.jpf 文件 中 的 测试 进行 了 扩展 ， 加 入 了 PreciseRaceDetector 和 Coverage- 
Analyzer 监听 器 。 


+classpath=$ {config _ path}/bin 

target=com.javferna.packtpub.mastering.testing.main.MainNumber 

listener=gov.nasa.jpf.listener.PreciseRaceDetector,gov.nasa.jpf.1i 
stener.CoverageAnalyzer 


如 果 通 过 JPF 的 Verify 选项 执行 该 配置 文件 ， 在 该 应 用 程序 结束 时 会 看 到 ， 当 它 探测 到 第 一 个 
竞争 条 件 时 ， 会 在 控制 台中 给 出 有 关 这 一 情况 的 信息 。 


=== system under test 
com. javferna.packtpub.mastering. testing.main.MainNumber.main() 


== search started: 3/12/15 2:43 


Bov.nasa.jpf.listener.PreciseRaceDetector 

race for field com.javferna.packtpub.mastering.testing.common.Data@1l5e.value 

Thread-1 at com.javferna.packtpub.mastering.testing.common.Data.increment(Data.java:12) 
WRITE: putfield com.javferna.packtpub.mastering.testing.common.Data.value 

Thread-2 at com.javferna.packtpub.mastering.testing.common.Data.increment(Data.java:12) 
” READ: Bgetfield com.javferna.packtpub.mastering.testing.common.Data.value 


=: = snapshot #1 
thread java.lang.Thread:{id:8,name:main, status:WAITING, priority:5,isDaemon:false, lockCount:8, suspendCount :0} 
waiting on: java.lang.Thread@166 
call stack: 
at java.lang.Thread.join(Thread.java) 
at com.javferna.packtpub.mastering.testing.main.MainNumber .main(MainNumber .java:28) 


thread java.lang.Thread:{id:1,name:Thread-1, status:RUNNING, priority:5,isDaemon:false, lockCount :0, suspendCount:8} 
call stack: 
at com.javferna.packtpub.mastering.testing.common.Data.increment(Data.java:13) 
at com.javferna.packtpub.mastering.testing.task.NumberTask.run(NumberTask.java:17) 


thread java.lang.Thread:{id:2,name:Thread-2, status:RUNNING, priority:5,isDaemon:false, lockCount:8, suspendCount :8} 
call stack: 
at com.javferna.packtpub.mastering.testing.common.Data.increment(Data.java:12) 
at com.javferna.packtpub.mastering.testing.task.NumberTask.run(NumberTask.java:17) 


还 会 看 到 CoverageAnalyzer 监听 列 输 出 这 样 的 信息 。 


=== coverage statistics 


二 汪 区 - - [Ljava.io.ObjectStreamField; 
2 和 网 - - [Ljava.lang.String; 

国 二 训 3 - [Ljava.lang.Thread$State; 

- i [Ljava.lang.Thread; 

- - - [Ljava.util.Hashtable$Entry; 


5 a - a 训 [s 
= 二 = = 记 

外 . 和 boolean 

” 的 区 byte 

四 四 - E a char 

09,80 (16/26) 8,75 (6/8) 89,80 (4/5) - 8,75 (3/4) com. javferna.packtpub.mastering.testing. common.Data 
8,89 (47/53) 8,77 (18/13) 9,83 (15/18) 1,98 (2/2) 9,56 (1/2) com. javferna.packtpub.mastering. testing.main.MainNumber 
1,68 (18/18) 1,98 (6/6) 1,68 (7/7) 1,98 (1/1) 1,98 (2/2) com. javferna.packtpub.mastering.testing.task.NumberTask 
- 了 本 . . double 

ee be 和 float 

6,68 (6/3) 9,68 (9/1) 9,69 (8/2) -~ 0,90 (6/1) Bov.nasa.jpf.BoxObjectCaches 

80,00 (8/31) 9,68 (8/11) 0,00 (6/17) 6,68 (8/2) 8,00 (9/6) gov.nasa.jpf.ConsoleOutputstream 

6,68 (8/36) 6,68 (8/13) 0,00 (8/19) 6,68 (8/3) 6,68 (8/5) gov.nasa. jpf.FinalizerThread 
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JPF 是 非常 强大 的 应 用 程序 ,其 中 还 含有 更 多 监听 器 和 扩展 机 制 。 可 以 通过 网 址 http://babelfish.arc. 
nasa.gov/trac/jpf/wiki 查看 其 完整 文档 。 


12.4 ”小 结 


测试 并 发 应 用 程序 是 一 项 非常 困难 的 任务 。 线 程 的 执行 顺序 无 法 保证 (除非 在 应 用 程序 中 引入 了 
同步 机 制 )， 因 此 与 串 行 应 用 程序 相 比 需 要 测试 很 多 不 同 的 情况 。 有 时 ， 应 用 程序 中 出 现 了 错误 ， 但 
是 无 法 重 现 ， 因 为 这 些 错 误 仅 在 非常 罕见 的 情况 下 出 现 。 有 时 ， 由 于 硬件 或 软件 配置 的 原因 ， 错 误 只 
会 在 特定 机 器 上 出 现 。 

本 章 介绍 了 一 些 可 以 更 加 方便 地 测试 并 发 应 用 程序 的 机 制 。 首 先 ， 你 学 习 了 如 何 获取 Java 并 发 
API 中 最 重要 组 件 的 状态 信息 ， 例 如 线程 、 锁 、 执 行 右 或 流 。 需 要 探查 导致 错误 的 原因 时 ， 这 些 信息 
非常 有 用 。 然后 , 你 学 会 了 如 何 使 用 JConsole 监视 常规 Java 应 用 程序 和 特殊 一 点 的 并 发 应 用 程序 。 最 
后 ， 你 学 会 了 如 何 使 用 两 种 不 同 的 工具 测试 并 发 应 用 程序 。 

下 一 章 将 介绍 如 何 使 用 其 他 语言 和 类 库 实 现 并 发 应 用 程序 ,这些 语言 和 类 库 也 可 以 支持 你 实现 面 
向 Java 虚拟 机 的 并 发 应 用 程序 。 你 将 学 到 采用 Clojure、 含 有 GPars 库 的 Groovy 以 及 Scala 实现 并 发 
应 用 程序 的 基本 原则 。 


JVM 中 的 并 发 处 理 :“Glojure、 


市 有 GPars 库 的 GrooVy 以 及 
Scala 


Java 是 最 受 欢迎 的 编程 语言 , 但 并 不 是 实现 Java 虚拟 机 (JVM ) 程序 的 唯一 编程 语言 。 维 基 百 科 
的 “List ofJVM languages” 中 列 出 了 所 有 可 实现 JVM 程序 的 语言 。 其 中 一 些 是 已 有 语言 面向 JVM 的 
实现 ,例如 耻 uby (Ruby 编程 语言 的 实现 ) 或 Jython (Python 编程 语言 的 实现 )。 其 他 一 些 语言 遵循 
不 同 的 编程 范式 ， 例 如 Clojure 是 一 种 函数 式 编程 语言 。 还 有 一 些 则 是 脚本 语言 和 动态 编程 语言 ， 例 
如 Groovy。 这 些 语言 大 多 可 以 和 Java 语言 很 好 地 集成 。 实际 上 , 可 以 在 这 些 编程 语言 中 直接 使 用 Java 
元 素 ， 包括 像 Thread 对 象 或 执行 器 这 样 的 并 发 元 素 。 有 些 语言 还 实现 了 自己 的 并 发 模型 。 本 章 将 对 
其 中 三 种 语言 提供 的 并 发 元 素 进 行 简要 介绍 。 
口 Clojure: 提供 Atom、Agent 等 引用 类 型 ， 以 及 Future 和 Promise 等 其 他 元 素 。 
口 Groovy: 通过 GPars 库 提供 面向 数据 并 行 化 处 理 的 元 素 ， 它 拥有 自己 的 Actor 模型、Agent 和 
Dataflow。 
口 Scala: 提供 Future 和 Promise 两 个 元 素 。 
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Clojure 是 一 种 动态 、 通 用 的 函数 式 编程 语言 ， 它 基于 Rich Hickey 创建 的 Lisp 编程 语言 。 可 在 
Clojure 官网 下 载 该 语言 的 最 新 版 本 ( 撰写 本 书 时 是 1.8.0 版 )， 还 可 以 找到 有 关 使 用 Clojure 进行 编程 
的 文档 和 指南 。 你 可 以 在 最 流行 的 Java IDE ( 如 Eclipse ) 中 安装 Clojure 支持 环境 。 另 一 个 有 用 的 网 
页 是 http://clojure-doc.org， 可 以 在 上 面 找到 社区 驱动 的 Clojure 编程 语言 文档 站 点 。 

本 节 将 介绍 Clojure 编程 语言 中 最 重要 的 并 发 元 素 及 其 用 法 。 本 章 不 打算 介绍 Clojure 编程 语言 ， 
读者 可 以 查看 相关 评论 网 站 ， 学 习 如 何 使 用 Clojure 编程 。 

Clojure 编程 语言 的 设计 目标 之 一 是 使 并 发 编程 更 加 容易 。 针 对 这 一 目标 ， 要 注意 两 个 重要 事项 。 

口 Clojure 数据 结构 是 不 可 变 的 ， 所 以 它们 可 以 在 线程 之 间 共 享 而 不 会 有 任何 问题 。 稍 后 你 就 会 

看 到 ， 这 并 不 意味 着 并 发 应 用 程序 中 不 能 拥有 可 变 值 。 


/ 
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口 Clojure 将 标识 和 值 的 概念 区 分 开 来 ， 几 乎 消除 了 对 显 式 锁 的 需要 。 
下 面 介绍 一 下 Clojure 编程 语言 提供 的 最 重要 的 并 发 结构 。 


13.1.1 使 用 Java 元 素 

使 用 Clojure 编程 时 ， 可 以 使 用 所 有 的 Java 元 素 (包括 并 发 元 素 )， 因 此 可 以 创建 线程 或 执行 器 ， 
或 者 使 用 Fork/Join 框架 。 然 而 这 并 不 是 一 种 好 的 实践 方法 ， 因 为 Clojure 本 身 提供 了 更 简单 的 并 发 编 
程 ， 但 是 可 以 显 式 地 创建 一 个 `Thread， 如 以 下 代码 块 所 示 : 


(ns example.examplel) 


(defn examplel ( [number] 
(println (format "%s : 


) ) 


$d" (Thread/currentThread) number)) 


(dotimes [i 10] (.start (Thread. (fn[] (examplel I))))) 

在 这 段 代码 中 ， 首先， 定义 一 个 名 为 examplel 的 函数 ， 它 接收 一 个 数值 作为 参数 。 在 该 函数 内 
部 ， 编 写 关 于 执行 该 函数 的 Thread 的 信息 ， 以 及 参数 中 的 number 值 。 

然后 ,创建 并 执行 10 个 Threag 对 象 。 每 个 线程 都 将 调用 函数 example1。 


在 下 面 的 截图 中 ， 可 以 看 到 这 段 代 码 的 执行 结果 。 


Thread[Thread-3,5,main] : 9 
Thread[Thread-18,5,main] : 7Thread[Thread-9,5,main] : 6 
Thread[Thread-11,5,main] : 8 

Thread[Thread-12,5,main] : 9 

Thread[Thread-4,5,main] : 1 

Thread[Thread-5,5,main] : 2 

Thread[Thread-8,5,main] : 5 

Thread[Thread-6,5,main] : 3 

Thread[Thread-7,5,main] : 4 

nNREPL server started on port 52448 on host 127.9.9.1 - nrepl:// 


在 上 面 的 截图 中 ， 可 以 看 到 对 于 全 部 10 个 线程 来 说 Thread 的 名 称 都 是 不 同 的 。 


13.1.2 引用 类 型 
如 前 所 述 ，Clojure 数据 结构 不 可 变 ， 但 是 Clojure 提供 了 一些 机 制 ， 人 允许 使 用 引用 类 型 处 理 可 变 


变量 。 根 据 协调 还 是 不 协调 ， 同 步 还 是 异步 ， 可 以 对 引用 类 型 进行 分 类 。 
口 协调 型 : 两 个 或 多 个 操作 相互 协作 时 。 


口 不 协调 型 : 该 操作 不 对 其 他 操作 产生 影响 时 。 
口 同步 型 : 调用 者 等 待 操作 结束 时 。 

口 异步 型 : 调用 者 不 等 待 操作 结束 时 。 

Clojure 编程 语言 中 最 重要 的 引用 类 型 有 如 下 几 种 。 
口 Atom 

口 Agent 

口 Ref 
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下 面 一 起 了 解 一 下 如 何 使 用 这 些 元 素 。 

1. Atom 对 象 

Atom 本 质 上 是 对 Java 编程 语言 的 原子 引用 。 这 种 变量 的 变化 对 所 有 线程 立即 可 见 。 我 们 将 用 下 
面 的 函数 处 理 Atom， 它 们 是 一 种 不 协调 而 且 同 步 的 引用 类 型 。 

口 atom: 定义 一 个 新 的 Atom 对 象 。 

口 swap!: 根据 函数 的 结果 ， 将 Atom 的 值 原子 地 更 改 为 新 值 。 它 遵循 (swap! atom function) 

格式 ， 其 中 atom 是 Atom 对 象 的 名 称 ， 而 function 是 返回 Atom 新 值 的 函数 。 

口 reset!: 将 Atom 的 值 设置 为 新 值 。 它 遵循 (reset! atom value) 格 式 ， 其 中 atom 是 Atom 

对 象 的 名 称 ， 而 value 是 该 Atom 对 象 的 新 值 。 

口 compare-and-set!: 如 果实 际 值 与 参数 所 传递 的 值 相 同 ， 则 以 原子 方式 改变 Atom 对 象 的 
值 。 它 遵循 (compareand-set! atom old-value new-value) 格 式 ， 其 中 atom 是 Atom 
对 象 的 名 称 ，old-value 是 Atom 对 象 预 期 的 实际 值 ， 而 new-value 是 想 要 指派 给 Atom 对 
象 的 新 值 。 

下 面 介绍 一 个 操作 Atom 对 象 的 示例 。 首 先 ， 声 明 一 个 名 为 company 的 函数 ， 它 接收 两 个 名 为 
account 和 salary 的 参数 。 稍 后 将 看 到 ，account 是 一 个 Atom 对 象 ， 而 salary 是 一 个 数值 。 我 
们 使 用 swap! 函数 增加 account 对 象 的 值 。 然 后 ， 在 控制 台中 输出 执行 该 函数 的 线程 信息 ， 并 使 用 
el(dereferencing) 图 数 来 输出 该 Atom 对 象 的 实际 值 。 


(ns example.example2) 


(defn company ( [account salary] 

(swap! account + salary) 

(println (format "%s : %d" (Thread/currentThread) @account)) 
) ) 


然后 ， 创 建 一 个 名 为 user 的 类 似 
的 变量 作为 参数 。 我 们 仍然 使 用 swap ! 


(defn user ( [account money] 

(swap! account - money) 

(println (format "%s : %d" (Thread/currentThread) @account)) 
) ) 


然后 , 创建 一 个 名 为 myTask 的 函数 ， 它 接收 一 个 名 为 account 的 Atom 对 象 作 为 参数 ， 并 调用 
company 限 数 1000 次 ( 值 为 100 )， 而 且 user 函数 的 值 为 100， 这 样 account 对 象 的 最 终 值 应 该 是 
相同 的 。 


(defn myTask ( [account] 
(dotimes [i 1000] 
(company account 100) 
(user account 100) 
(Thread/sleep 100) 
) ) ) 


最 后 ,将 myAccount 对 象 创 建 为 一 个 Atom 对 象 (其 初始 值 为 0 )， 并 创建 10 个 线程 来 执行 myTask 
函数 。 


数 。 它 接收 Atom 对 象 account 对 象 和 另 一 个 名 为 money 
数 ， 不 过 在 这 种 情况 下 ， 是 为 了 减 小 Atom 对 象 的 值 。 


到 
到 
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(def myAccount (atom 0) ) 


(dotimes [i 10] (.start (Thread. (fn[] (myTask myAccount ) ) ) ) 
下 面 的 屏幕 截图 显示 了 这 个 例子 的 执行 情况 。 


Thread[Thread-9,5,main] : 266 
Thread[Thread-7,5,main] : 288 
Thread[Thread-7,5,main] : 8 
Thread[Thread-9,5,main] : 188 
Thread[Thread-5,5,main] : 188 
Thread[Thread-5,5,main] : 8 
Thread[Thread-4,5,main] : 188 
Thread[Thread-4,5,main] : 8 
Thread[Thread-9,5,main] : 188 
Thread[Thread-9,5,main] : 9 


在 该 图 中 , 可 以 看 到 运行 myTask 函数 的 不 同 线程 , 而 且 Atom 对 象 myAccount 的 最 终 值 如 预期 

那样 为 0。 

2. Agent 对 象 

Agent 是 在 将 来 某 个 时 刻 异 步 更 新 的 引用 。 它 在 整个 生命 周期 中 都 与 某 个 存储 位 置 相 关联 ， 而 你 
只 能 改变 该 位 置 的 值 。Agent 是 一 种 不 协调 的 数据 结构 。 

可 以 通过 以 下 函数 使 用 Agent。 

口 agent : 建立 一 个 新 的 Agent 对 象 。 

口 send: 确定 Agent 的 新 值 。 它 遵循 (send agent function value) 语 法 ， 其 中 agent 是 我 
们 想 修改 的 Agent 的 名 称 ，function 是 为 计算 Agent 新 值 所 要 执行 的 函数 ， 而 value 是 
Agent 的 实际 值 ， 将 其 传递 给 function 可 以 计算 Agent 的 新 值 。 

口 send-of: 当 想 要 使 用 函数 来 更 新 一 个 阻塞 型 函数 的 值 ( 例如 ， 读 取 一 个 文件 ) 时 ， 可 以 使 
用 该 函数 。sengd-of 函数 将 立即 返回 ， 而 且 用 于 更 新 Agent 值 的 函数 将 在 另 一 个 线程 中 继续 
执行 。 它 遵循 与 send 函数 相同 的 语法 。 

口 await: 等 待 (阻塞 当前 线程 )， 直 到 Agent 所 有 未 完成 的 操作 完成 为 止 。 它 遵循 语法 (await 

agent) ， 其 中 agent 是 要 等 待 的 Agent 的 名 称 。 

口 await-for: 对 于 实际 的 Agent， 你 可 以 使 用 该 函数 等 待 其 参数 指定 的 毫秒 数 。 该 函数 返 下 

一 个 布尔 值 ， 以 指示 Agent 是 否 已 被 更 新 。 它 遵循 语法 (await-for time agent), 其 
agent 是 Agent 的 名 称 ， 而 time 是 要 等 待 的 毫秒 数 。 

口 agent-error: 如 果 Agent 出 现 故 障 ， 则 返回 Agent 抛 出 的 异常 。 它 遵循 语法 (agent-error 

agent) ， 其 中 agent 是 Agent 的 名 称 。 

口 shutdown-agents: 结束 处 于 运行 状态 的 Agent 的 执行 。 该 函数 遵循 (shutdown-agents) 
语法 。 

下 面 来 看 一 个 例子 ， 感 受 一 下 如 何 使 用 Agent。 

首先 ， 创 建 一 个 Agent， 其 初始 值 为 300。 


(ns example.example3) 


(def myAgent (agent 300)) | 
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然后 ， 实 现 一 个 名 为 myTask 的 函数 。 我 们 将 重复 如 下 过 程 : 首先 使 用 sena 方法 将 Agent 的 值 
增加 1000 倍 ， 然 后 用 sena 方法 将 其 递减 ， 这 样 Agent 的 最 终 值 就 应 该 是 相同 的 。 


(defn myTask ( [al] 
(dotimes [i 1000] 
(send a + 100) 
(send a - 100) 
(println (format "%s : %d"(Thread/currentThread) @a)) 
(Thread/sleep 100) 


最 后 ， 创 建 10 个 线程 来 执行 myTask 函数 。 
(dotimes [i 10] (.start (Thread. (fn[] (myTask myAgent) ) ) ) ) 


下 面 的 屏幕 截图 显示 了 执行 本 例 时 的 输出 。 


Thread[Thread-7,5,main] : 306 
Thread[Thread-5,5,main] : 308 
Thread[Thread-8,5,main] : 386 
Thread[Thread-3,5,main] : 306 
Thread[Thread-12,5,main] : 386 
Thread[Thread-6,5,main] : 388 
Thread[Thread-18,5,main] : 306 
Thread[Thread-8,5,main] : 388 
Thread[Thread-3,5,main] : 388 
Thread[Thread-6,5,main] : 388 


在 该 屏幕 截图 中 可 以 看 到 ， 有 不 同 的 线程 执行 myTask 函数 ， 而 且 Agent 的 值 像 预期 那样 最 后 达 
到 300。 


13.1.3 ”Ref 对象 


最 后 , 来 看 看 Ref 对 象 。 这 类 对 象 是 Clojure 中 唯一 的 协调 引用 类 型 ,也 是 一 种 同步 数据 结构 。 这 
类 对 象 允 许 在 事务 处 理 中 并 发 地 修改 多 个 引用 ， 因 此 要 么 所 有 引用 都 被 修改 ,要么 任何 一 个 引用 都 不 
被 修改 。 
可 以 使 用 下 述 函 数 操作 Ref 对象 。 
口 ref: 创建 一 个 新 的 Ref 对 象 。 
口 alter: 该 函数 以 安全 方式 修改 引用 值 的 取 值 。 它 遵循 语法 (alter ref function) ， 其 
中 ，ref 是 要 修改 的 Ref 对象 名 称 ， 而 fucntion 是 用 于 获取 该 引用 的 新 值 的 函数 。 
口 ref-set: 该 集合 确定 了 Ref 对 象 的 值 。 它 遵循 语法 (ref-set ref value) ， 其 中 ref 是 要 
修改 的 Ref 对 象 的 名 称 ， 而 value 是 Ref 对象 的 新 值 。 
口 conmute: 该 函数 也 可 改变 Ref 的 值 ， 它 遵循 语法 (conmute ref function), 上 
想 要 修改 的 Ref 对 象 的 名 称 ， 而 function 则 是 计算 Ref 新 值 的 函数 。 
口 aosync: 以 事务 处 理 的 方式 执行 参数 所 传递 的 表达 式 。 如 果 在 表达 式 执行 期 间 发 生 异 常 ， 则 
不 会 执行 与 Ref 对 象 相关 的 操作 。 另 一 方面 ，alter 子 数 和 commuted 函数 都 必须 在 dosync 
函数 内 部 执行 。 它 遵循 语法 (dosync expression) ， 其 中 expression 是 待 执行 的 表达 式 。 


1ref 是 


4 
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下 面 看 一 个 操作 Ref 对 象 的 例子 。 
首先 ， 声明 名 为 account1l 和 account2 的 两 个 对 象 ， 并 且 将 它们 初始 化 为 0。 


(ns example.example4) 
(def account1 (ref 0)) 
(def account2 (ref 0)) 


然后 ， 定 义 一 个 名 为 myTask 的 函数 ， 它 将 收 名 为 source 和 destination 的 两 个 Ref 对象 作 
为 参数 。 我们 减 小 source 的 值 并 增加 aestination 的 值 1000 次 , 就 像 两 个 银行 账户 之 间 的 交易 一 
样 。 我 们 使 用 alter 函数 来 改变 Ref 对 象 的 值 ， 因 此 在 Gosync 函数 中 必须 包含 对 它 的 两 次 调用 。 


(defn myTask ( [source, destination] 
(dotimes [i 1000] 
(dosync 


(alter source - 100) 
(alter destination + 100) 
) 
(println (format "%s : %d - %d" (Thread/currentThread) 
@source @destination)) 
(Thread/sleep 100) 
) ) ) 


最 后 ,创建 10 个 线程 来 调用 myTask 函数 ， 其 中 源 是 account1， 目 标 是 account2; 再 创建 另 
外 10 个 线程 来 调用 myTask 函数 ， 其 中 源 是 account2， 目标 是 account1。 


(dotimes [i 10] (.start (Thread. (fn[] (myTask account1 account2))))) 
(dotimes [i 10] (.start (Thread. (fn[] (myTask account2 account1))))) 


下 面 的 屏幕 截图 显示 了 执行 这 个 例子 时 的 输出 。 


Thread[Thread-12,5,main] : -4 - 406 
Thread[Thread-16,5,main] : 308 - -306 
Thread[Thread-15,5,main] : 288 - -2096 
Thread[Thread-3,5,main] : -366 - 388 
Thread[Thread-8,5,main] : -388 - 388 
Thread[Thread-18,5,main] : 208 - -2096 
Thread[Thread-19,5,main] : 166 - -196 
Thread[Thread-21,5,main] : 8 - 9 

Thread[Thread-12,5,main] : -1968 - 196 
Thread[Thread-15,5,main] : 6- 9 


在 该 屏幕 截图 中 ， 可 以 看 到 执行 myTask 函数 的 不 同 线程 ， 以 及 两 个 引用 的 最 终 值 像 预 想 的 那样 
为 0。 


13.1.4 Delay 


Delay 是 一 种 数据 结构 , 当 其 被 解 引用 后 才 进 行 首次 计算 以 获取 值 ,可 以 使 用 下 述 函 数 操作 Delay。 
口 gelay: 使 用 该 也 数 声明 一 个 新 的 Delay。 

口 e: 这 是 解 引用 函数 。 可 以 使 用 它 读 取 Delay 的 值 。 

口 realized?: 该 函数 将 返回 一 个 布尔 值 ， 用 于 指示 Delay 是 否 已 初始 化 。 


下 面 来 看 一 个 关于 Delay 的 例子 。 [el 
首先 ,声明 名 为 now、otherNow 和 1ater 的 三 个 对 象 。 在 这 三 个 对 象 中 ,我 们 将 存储 一 个 含有 
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当前 日 期 的 字符 串 。later 对 象 将 被 定义 为 一 个 Delay。 


(ns example.example5) 


(def now (.toString (java.util.Date.))) 
(def otherNow (.toString (java.util.Date.))) 
(def later (delay (.toString (java.util.Date.)))) 
然后 ,定义 myTest 函数 。 首 先 ， 输出 now 变量 的 值 。 然 后 ,将 当前 线程 休眠 5 秒 钟 ， 然 后 再 输 
出 otherNow 变量 和 later 变量 的 值 。 对 于 later 变量 ， 必 须 使 用 解 引 用 函数 获得 它 的 值 。 


且 ， 


(defn myTest ([] 
(println (format "% 
(Thread/sleep 5000) 
(Brittlnm (fOrmat ”se 

) ) 

(myTest) 


s" now)) 


S : %$s" otherNow @later)) 


下 面 的 屏幕 截图 显示 了 执行 这 个 例子 时 的 输出 结 


frue May 99 99:57:29 CEST 2817 


Tue May 89 696:57:29 CEST 2017 : Tue May 99 99:57:34 CEST 2817 


在 该 屏幕 截图 中 ， 可 以 看 到 Delay 的 值 一 直 没 有 初始 化 ， 直 到 使 用 解 引 
13.1.5 Future 


Future 是 在 另 一 个 线程 中 计算 的 一 段 代 码 。 可 以 使 用 下 面 的 函数 操作 Future。 
口 future: 使 用 该 函数 创建 一 个 新 的 Future。 

口 realized?: 使 用 该 函数 可 检验 Future 是 否 已 执行 完成 。 

口 解 引用 函数 (@ ): 使 用 该 函数 可 获得 Future 的 值 。 调 用 解 引用 
执行 完成 并 返回 值 为 止 。 
口 aeref: 使 用 该 函数 阻塞 当前 线程 一 段 时 间 。 如 果 该 时 间 间 隔 


结束 后 Future 仍 未 完成 执行 ， 
那么 该 函数 返回 。 


函数 阻塞 当前 线程 ， 直 到 Future 


下 面 看 一 个 使 用 Future 的 例子 。 
首先 ， 声 明 一 个 名 为 initializeEnv 的 函数 ， 该 浮 数 让 其 执行 线程 休眠 1 秒 钟 。 该 函数 输出 关 
于 执行 这 段 代码 的 线程 的 信息 ， 最 后 返回 "ok" 值 。 


(ns example.example6) 


(def initializeEnv ( future 
(println (format "%s : Initializing environment" (Thread/currentThread))) 
(Thread/sleep 1000 


) 
(println (format "%s : Environment initialized" (Thread/currentThread))) 
中 OK 和 


) ) 


然后 , 声明 另 一 个 名 为 initilizeapp 的 函数 。 该 函数 与 initializeEnv 函数 等 价 ， 只 不 过 它 
将 使 执行 线程 休眠 3 秒 钟 。 
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(def initializeApp ( future 
(println "Initializing app") 
(Thread/sleep 3000) 

(println "Environment app") 
Li Ok Li 
}) 


最 后 ， 使 用 组 命 令 调 用 realized? 男 数 和 解 引用 函数 。 


(println (realized? initializeEnv)) 
(println (realized? initializeApp)) 
(println @initializeEnv) 
(println (realized? initializeEnv)) 
(println (realized? initializeApp)) 
(println @initializeApp) 


执行 该 代码 时 , 可 以 看 到 两 个 Future 在 同一 时 间 启 动 执行 , initializeEnv a 
而 且 initializeEnv 将 向 realized? 函 数 返回 true 值 。 然 后 ，initilizeaApp 函数 将 结束 其 执行 。 


13.1.6 Promise 


Promise 是 与 Future 相 类 似 的 一 种 机 制 。 主 要 的 区 别 在 于 它 并 不 会 计算 某 段 代码 ; 你 要 显 式 地 而 
定 它 的 值 。 可 用 于 Promise 的 函数 如 下 所 示 。 
口 promise: 使 用 该 函数 可 创建 一 个 新 的 Promise。 
口 realizeq?: 使 用 该 函数 可 以 检查 Promise 是 否 有 值 。 
口 解 引 用 函数 (e ) : 使 用 该 函数 可 以 获取 Promise 的 值 。 调 用 解 引 用 函数 阻塞 当前 线程 ， 直 到 
Promise 完成 其 执行 并 且 返 回 值 为 止 。 
口 deref: 使 用 该 函数 来 阻塞 当前 线程 一 段 时 间 。 如 果 这 段 时 间 结 束 有 是 Promise 尚未 完成 执行 ， 
则 该 函数 返回 。 
口 aeliver: 使 用 该 函数 来 确定 Promise 的 返回 值 。 
让 我 们 看 一 个 使 用 Promise 的 例子 。 首 先 ， 定 义 一 个 名 为 myPromise 的 新 Promise。 


(ns example.example7) 


(def myPromise (promise)) 


然后 ， 创 建 一 个 名 为 myTest 的 函数 ， 它 将 接收 一 个 Promise 作为 参数 。 等 待 5 秒 钟 ， 然 后 在 验 
证 该 Promise 没有 值 之 后 ， 使 用 aeliver 函数 为 其 确定 值 。 


(defn myTest (I[p] 
(def now (java.util.Date.)) 
(println (format "Start : %$s" now)) 
(Thread/sleep 5000) 
(def now (java.util.Date.)) 
(println (format "End : %s" now)) 
人 
( 


println (realized? p)) 
deliver p "ok") 
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最 后 , 启动 一 个 线程 来 执行 myTest 函数 , 并 且 使 用 realized? 函 数 和 解 引 用 函数 来 验证 Promise 


是 否 有 值 ， 并 且 将 其 输出 。 


(def now (java.util.Date.)) 
(println (format "Main : %s" now)) 
(println (realized? myPromise)) 
(println @myPromise) 

(def now (java.util.Date.)) 
(println (format "Main : %s" now)) 
(println (realized? myPromise)) 


下 面 的 屏幕 截图 展示 了 执行 本 例 后 的 输出 结果 。 


false 

End : Tue May 89 81:12:18 CEST 
false 

ok 


true 


Main : Tue May 89 91:12:13 CEST 2817 


Start : Tue May 989 91:12:13 CEST 2817 


Main : Tue May 989 81:12:18 CEST 2917 


2817 


13.2” ”Groovy 及 其 GPars 库 的 并 发 处 理 


Groovy 是 面向 Java 平 台 的 一 种 动态 的 、 面 向 对 象 的 编程 语言 , 类 似 于 Python、Ruby 或 Perl。GPars 
是 面向 Groovy 和 Java 的 并 发 处 理 与 并 行 框架 ， 它 引入 了 大 量 的 类 和 元 素来 简化 并 行 编程 。 最 重要 的 


几 点 如 下 。 


口 ForkJoin 处 理 :允许 你 使 用 分 治 技术 来 实现 并 发 算 
D Actor: 实现 了 一 个 基于 消息 传递 的 并 发 模型 。 


口 Agent: 受 13.1 节 介 绍 的 Clojure 编程 语言 所 提供 的 


13.3 ”软件 事务 性 内 存 


口 数据 并 行 处 理 : 提供 了 支持 并 行 处 理 数据 结构 的 机 制 。 


法 。 


口 Dataflow: 允许 采用 一 种 替代 并 发 模型 来 并 发 处 理 数 据 。 


Agent 启发 。 


软件 事务 性 内 存 是 一 种 机 制 ， 它 为 程序 员 在 内 存 中 访问 数据 提供 了 事务 性 语义 。 本 节 ， 你 将 学 习 


如 何在 Groovy 中 应 用 这 些 元 素 。 尽 管 我 们 并 没有 介绍 Groo 


vy 编程 语言 , 但 是 你 可 以 通过 互联 网 查找 


到 很 多 关于 Groovy 编程 语言 的 教程 。 在 GPars 的 主页 可 以 
正如 前 面 提 到 的 ， 你 还 可 以 在 Java 编程 语言 中 使 用 该 库 。 


13.3.1 使 用 Java 元 素 


下 载 该 库 并 查找 有 关 如 何 使 用 它们 的 文档 。 


Groovy 是 一 种 针对 JVM 生成 字 节 码 的 编程 语言 。 你 可 以 在 Groovy 程序 中 使 用 Java 编程 语言 的 


所 有 元 素 ， 包 括 与 并 发 处 理 相关 的 所 有 元 素 。 
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Examplel 


例如 ， 在 下 面 的 例子 中 ， 你 将 创建 一 个 线程 。 首 先 ， 使 用 main () 方 法 声明 一 个 名 为 1 
1 该 线程 执行 的 代码 。 


class Examplel { 
static main(args) { 
在 本 例 中 ,我 们 将 显示 当前 日 期 ,休眠 当前 线程 1 秒 钟 ， 然 后 再 次 写 人 当前 日 期 。 
Starting the thread: 


"+new Date(); 


的 Groovy 类 。 
然后 ,使 用 Thread 类 的 start () 方 法 创建 并 执行 一 个 线程 ,你 可 以 指定 要 


Ending the thread: 


def task = Thread.start { 
println Thread.currentThread() .getNarme () + 
"+new Date(); 


Thread.currentThread().sleep(1000); 
println Thread.currentThread() .getName () + 
Main has ended: 


} 


日 join ( ) 方 法 来 等 待 该 线程 结 
Fy Date(); 


可 以 使 


task.join(); 


程序 时 ， 你 将 看 到 该 线程 显示 了 第 一 个 消息 ， 并 且 在 一 秒 钟 后 显示 第 二 个 消息 。 然 


println Thread.currentThread() .getName () + 


数据 结构 。 我 们 要 考虑 


} 
显示 了 它 的 消息 。 


| 


} 


当 执行 该 应 月 
后 ， 当 它 完成 执行 时 ，main ( ) 方 法 
13.3.2 ”数据 并 行 处 理 
语言 
一 个 元 素 是 GParsPool 类 。 这 个 类 是 基于 Fork/Join 框架 的 JSR-166y 的 实现 , 它 在 以 并 发 方式 处 


在 本 节 中 ， 我 们 将 采用 Groovy 编 入 提供 的 所 有 元 素 以 并 发 方式 处 型 
我 们 来 看 一 个 使 用 GParsPool 类 的 例子 ,首先 ,我 们 要 包含 必要 的 import 语 句 。 然 后 ,使 用 main () 


然后 ,声明 一 个 从 1 到 1000 的 数值 范 


的 第 
理 数 据 结构 方面 性 能 非常 好 。 
方法 创建 一 个 名 为 Example2 的 类 。 
import groovyx.gpars.GParsPool 
import static groovyx.gpars.GParsPool .withPool 
class Example2 { 
static main(args) { 
科 ， 并 使 用 withPool 语句 以 并 行 方式 处 理 这 些 全 部 数值 。 
我 们 使 用 println 方法 来 输出 处 理 该 数值 的 线程 名 称 , 以 及 当前 处 理 的 数值 。 可 以 使 用 it 变量 来 访 


问 该 数值 。 
def numbers = 1..1000; 
println "Example 2 - Part 1" 
withPool { 

numbers.eachParallel { 

println Thread.currentThread() .getName() +": 


} 
} 
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然后 ， 使 用 withPool 语句 ， 不 过 现在 该 语句 带 有 一 个 表示 可 使 用 的 最 大 线程 数 的 参数 。 


println "Example 2 - Part 2" 
withPool(4)f{ 
List numberList = numbers.collectParallel { it *it} 
List smallNumberList = numberList.findAllParallel{ it < 100 } 
smallNumberList.eachParallel { 
println Thread.currentThread() .getName() +": "+ it; 


} 
} 


我 们 使 用 Groovy 提供 的 三 种 方法 并 行 处 理 该 范围 内 的 数值 。 可 以 使 用 collectParallel() 方 
法 来 计算 每 个 数值 的 平方 ,可 以 使 用 finqaAl1Parallel() 方 法 来 进行 数值 筛选 , 只 接收 那些 小 于 100 
的 数值 。 最 后 ， 可 以 使 用 eachParallel() 方 法 来 处 理 结果 列表 的 所 有 方法 。 

可 以 使 用 其 他 方法 并 行 处 理 符合 某 种 数据 结构 的 数据 ,例如 minParallel() 、maxParallel() 
或 countParallel ()。 通 过 查看 GPars API 可 以 了 解 这 些 方法 的 所 有 详细 信息 。 

以 下 屏幕 截图 显示 了 该 应 用 程序 的 执行 情况 。 


Example 2 - Part 2 
ForkJoinPool-2-worker-2: 25 
Fork]JoinPoo1l-2-worker-1: 1 
ForkJoinPool-2-worker-2: 36 
ForkJoinPool-2-worker-1: 4 
ForkJoinPool-2-worker-4: 9 
ForkJoinPool-2-worker-3: 16 
ForkJoinPool-2-worker-2: 49 
ForkJoinPool-2-worker-2: 64 
ForkJoinPool-2-worker-2: 81 


GParsPool 类 提供 的 另 一 个 选项 是 使 用 cal1Async () 或 sxecuteAsyncaAndWait () 方 法 在 不 同 
的 线程 中 调用 闭 包 。 第 一 个 方法 在 不 同 的 线程 中 启动 闭 包 的 执行 ,并 且 立 即 返回 ;而 另 一 个 方法 则 在 
返回 之 前 等 待 闭 包 结束 。 让 我 们 来 看 一 个 使 用 这 些 函 数 的 例子 。 
首先 , 我 们 包含 import 语句, 并 且 使 用 main () 方 法 创建 一 个 名 为 Example3 的 新 类 。 在 main () 
方法 中 ,创建 两 个 名 为 codel 和 code2 的 闭 包 。 


import groovyx.gpars.GParsPool 


class Example3 { 
static main(args) { 
Closure codel = { 
println "Closure 1: "+Thread.currentThread() .getName()+": Start:" 
+new Date(); 
Thread.currentThread().sleep(1000) 
println "Closure 1: "+Thread.currentThread() .getName()+": End: " 
+new Date(); 


} 


Closure code2 = { 
println "Closure 2: "+Thread.currentThread() .getName()+": Start:" 
+new Date(); 
Thread.currentThread() .sleep(2000) 
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println "Closure 2: "+Thread.currentThread() .getName()+": End: " 
+new Date(); 
} 

首先 ,使 用 Groovy 的 普通 语法 按 顺 序 调用 两 个 闭 包 。 

println "Closure 1 sequential" 

codel.call (); 

println "Closure 2 sequential" 


code2.call (); 


然后 ， 使 用 GParsPool 类 的 withPool 方法 ， 
闭 包 , 然后 使 用 GParsPool 类 的 executeAsyncAndWait ( 


调用 cal1Async () 方 法 以 并 发 方式 执行 codel 
() 方 法 来 执行 codel 闭 包 和 code2 闭 包 。 


GParSsPoo1l .withPool { 


println "Closure 1 async"; 
codel.callAsync (); 
println "Closure 1 and closure 2 async with wait" 
GParsPool .executeAsyncAndWait (codel,code2); 
println "End" 
} 
println "Main end" 
} 
} 
FE 不 :A 
下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 。 
Closure 1 sequential 
Closure 1: main: Start: Tue May 89 91:44:19 CEST 2917 
Closure 1: main: End: Tue May 89 81:44:28 CEST 2817 
Closure 2 sequential 
Closure 2: main: Start: Tue May 89 81:44:28 CEST 2817 
Closure 2: main: End: Tue May 89 91:44:22 CEST 2917 
Closure 1 async 
Closure 1 and closure 2 async with wait 
Closure 1: ForkJoinPool-1-worker-1: Start: Tue May 89 81:44:22 CEST 2917 
Closure 1: ForkJoinPool-1-worker-2: Start: Tue May 89 981:44:22 CEST 2817 
Closure 2: ForkJoinPool-1-worker-3: Start: Tue May 89 81:44:22 CEST 2917 
Closure 1: ForkJoinPool-1-worker-1: End: Tue May 99 91:44:23 CEST 29817 
Closure 1: ForkJoinPool-1-worker-2: End: Tue May 89 61:44:23 CEST 2817 
Closure 2: ForkJoinPool-1-worker-3: End: Tue May 89 91:44:24 CEST 2817 
End 
Main end 
可 以 看 到 ， 可 以 方便 地 区 分 闭 包 的 顺序 执行 和 并 发 执行 ( 通过 线程 的 名 称 )。 


GParsPool 类 的 男 一 个 选项 是 使 用 Map/Reduce 编程 模型 来 并 行 处 理 任 何 数据 结构 。 当 你 在 


Groovy 中 使 用 Map/Reduce 时 ， 你 的 数据 结构 在 内 部 转换 为 一 个 并 行 数组 ， 你 使 


用 于 该 数据 结构 。 它 类 似 于 Java 编程 语言 中 的 流 处 理 。 
让 我 们 看 一 个 使 用 这 一 功能 的 例子 ,首先 , 引入 必要 的 import 语 句 , 并 且 
新 类 ， 其 中 含有 main () 方 法 。 


import groovyx.gpars.GparsPool 


的 


class Example4 { 


在 该 方法 中 ， 声 明 一 个 1 到 10 000 之 间 的 范围 。 


用 的 所 有 方法 都 将 作 


创建 一 个 名 为 


Exampled4d 
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static main(args) { 
def numbers = 1..10000 


然后 ,使 用 withPool 语句 和 Fork/Join 功能 以 并 行 方 式 处 理 该 范围 中 的 数值 我们 使 用 parallel 
方法 将 该 数值 范围 转换 成 一 个 并 行 数据 结构 ， 使 用 map 方法 将 每 个 元 素 替换 为 该 元 素 的 平方 ,使 用 
filtez 方 法 只 保留 那些 小 于 100 000 的 数值 ， 使 用 sum 方法 对 列表 中 的 所 有 元 素 求 和 。 


GParsPool .withPool { 
int result = numbers.parallel .map{it*it}.filter{it < 100000} 
.Sum(); 


println result; 


然后 ,我 们 看 看 该 功能 的 其 他 示例 。 动 态 创建 男 一 个 介 于 1 和 1 000 000 之 间 的 数值 范围 ， 使 用 
parallel 方法 将 该 范围 转换 成 一 个 并 行 数据 结构 ,使 用 filter 方法 只 保留 偶数 ,使 用 map 方法 将 
每 个 数值 替换 成 其 平方 根 ， 最 后 使 用 collection 方法 将 并 行 数据 结构 转换 成 一 个 列表 。 


List numberList = (1..1000000) .parallel.filter{it % 2 == 0} 
.map{Math.sagrt it}.collection 


numberList.forEacht{ 
brintim eit 
} 
} 
} 
} 
执行 该 示例 时 ， 可 以 在 控制 台中 看 到 输出 的 数值 。 
最 后 ， 关 于 GParsPool 类 我 们 要 学 习 的 最 后 一 点 是 如 何 使 用 Promise 来 获取 异步 函数 的 值 。 让 
我 们 看 一 个 使 用 该 功能 的 例子 。 首 先 ， 创 建 一 个 名 为 Examples5 的 类 ， 其 中 含有 main () 方 法 ， 以 及 
一 个 名 为 codel 的 闭 包 。 


import static 9g9roovyx.gpars.GParsPoo1l .withPool; 


class Example5 { 


static main(args) { 

Closure codel = { 

println "Closure 1: "+Thread.currentThread() .getName()+": Start:" 
+new Date(); 
Thread.currentThread().sleep(1000) 

println "Closure 1: "+Thread.currentThread() .getName()+": End: " 

+new Date(); 

return new Date() .toString(); 


} 

然后 ， 使 用 withPool 语句 调用 asyncFun () 方 法 ， 以 异步 方式 执行 codel 闭 包 ， 然 后 生成 一 

个 含有 该 方法 结果 的 Promise。 最 后 ， 使 用 该 Promise 的 get () 方 法 来 获得 codel 闭 包 的 结果 。 请 注 
意 ，get () 方 法 休 眼 调用 线程 ， 直 到 闭 包 完成 执行 。 


withPool { 
def aCodel = codel.asyncFun(); 
def promise = aCodel ();，; 
println "We have call the closure"; 
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println "The result is : "+promise.get(); 


下 面 的 屏幕 截图 展示 了 执行 本 例 后 得 到 的 输出 结 


We have call the closure 

Closure 1: ForkJoinPool-1-worker-1: Start: Tue May 89 82:14:58 CEST 2817 
Closure 1: ForkJoinPool-1-worker-1: End: Tue May 89 82:14:51 CEST 2617 
The result is : Tue May 89 82:14:51 CEST 2817 


13.3.3 ”Fork/Join 处 理 


GPars 提供 的 Fork/Join 实现 类 似 于 Java 并 发 API 中 提供 的 Fork/Join 实现 。 该 功能 的 主要 目的 是 
利用 分 治 技术 解决 问题 。 第 一 次 执行 该 算法 时 ， 针 对 的 是 一 个 完整 的 问题 ， 可 以 检查 该 问题 的 规模 。 
如 果 其 规模 小 于 预先 定义 的 规模 ， 则 可 以 直接 解决 问题 。 否 则 ,你 可 以 将 问题 划分 为 预定 义 数 目的 小 
问题 并 且 进 行 异步 递归 调用 ， 每 个 子 问题 进行 一 次 递归 调用 。 每 次 递归 调用 的 处 理 过 程 都 是 相同 的 。 
你 可 以 再 次 检查 问题 的 规模 ， 如 果 它 小 于 预定 义 的 规模 ， 就 可 以 直接 进行 求解 ， 否则 ， 再 次 分 割 问题 
并 再 次 进行 递归 调用 。 当 所 有 递归 调用 都 结束 后 ， 启 动 这 些 调用 的 方法 将 再 次 得 到 控制 权 ， 获 取 每 次 
调用 的 结果 并 将 这 些 结果 分 组 ， 最 后 返回 结果 。 最 后 ， 通 过 分 组 求解 许多 小 问题 ， 我 们 求解 了 一 个 大 
规模 问题 。 

请 注意 ， 并 不 是 所 有 的 算法 都 可 以 使 用 这 种 技术 来 求解 ,但 是 只 要 你 可 以 使 用 这 种 技术 ,就 可 以 
对 资源 进行 优化 使 用 ， 得 到 非常 好 的 性 能 结 

GPars 库 提 供 了 以 下 方法 来 使 用 Fork/Join 框架 。 

口 runForkJoin(): 该 方法 创建 一 个 Fork/Join 执行 过 程 。 你 必须 指定 算法 的 参数 和 实现 该 算 

法 的 闭 包 。 递 归 调 用 具有 相同 的 参数 。 

口 foroffchilda(): 创建 一 个 新 的 子 任务 来 执行 子 问题 。 该 任务 将 在 未 来 执行 。 该 方法 将 待 调 

度 任 务 发 送 到 正在 执行 全 部 任务 的 ForkJoinPool 中 ， 并 且 立 即 返回 。 

口 runchilgDirectly (): 在 当前 线程 中 运行 子 任务 ， 并 且 当 其 结束 执行 时 返回 。 

口 getchildqrenResults () : 等 待 所 有 子 任务 最 终 完成 ， 并 且 返 回 一 个 含有 结果 的 List 对 象 。 
可 以 使 用 该 列表 来 计算 将 由 任务 返回 的 结 

让 我 们 看 一 个 如 何 使 用 GPars 库 的 Fork/Join 框架 的 示例 。 我 们 将 实现 一 个 函数 ， 它 计算 目录 中 
以 .log 为 扩展 名 的 文件 数目 。 首 先 ， 包 含 必要 的 import 语句 并 创建 一 个 名 为 Example6 的 类 ， 其 中 含 
有 main() 方 法 。 


import static groovyx.gpars.GParsPool .withPool; 
import static groovyx.gpars.GParsPool.runForkJoin; 


class Example6 { 


static main(args) { 
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然后 ， 在 withPool 命令 中 调用 runForkJoin() 方 法 , 将 File 对 象 作为 参数 传递 。 该 File 
对 象 含有 我 们 要 开始 寻找 扩展 名 为 .log 的 文件 的 路 径 。 我 们 必须 指定 算法 的 代码 。 对 于 作为 参数 接收 
的 目录 ， 我 们 处 理 其 中 包含 的 所 有 文件 和 目录 。 如 果 是 文件 ， 检 查 其 扩展 名 是 否 为 log。 如 果 扩 展 名 
是 log， 就 增加 计数 器 的 值 。 如 果 是 目录 ,那么 使 用 forkoffchild() 方 法 进行 异步 递归 调用 。 
当 处 理 完 所 有 的 项 目 后 ， 就 得 到 了 所 有 子 任务 的 结果 ， 并 将 这 些 任务 的 结果 和 计数 器 相 加 。 最 后 
的 值 就 是 返回 的 结果 。 
withPool() { 
def count = runForkJoin(new File("c:\\windows")) {file -> 
Long Count =: 0 
file.eachFile { 
if (it.isDirectory()) { 
println "Forking a child task for $it" 
forkOoffChild(it) 
} else { 
if (it.getName() .endsWith("log")) { 
Count++; 
println it.getName(); 
} 
} 
} 
return count + (chilgdrenResults.sum(0)) 


} 
要 注意 , 子 任务 也 可 以 有 子 任务 ， 以 此 类 推 。 最 后 ， 当 初始 调用 结束 时 ， 输 出 最 终结 果 


println "Total: "+ Gount:; 
} 
} 


执行 本 例 时 ， 你 可 以 看 到 文件 的 总 数 。 
13.3.4 Actor 


O 


Actor 实现 了 消息 传递 并 发 模型 。 每 个 Actor 都 是 一 个 独立 的 对 象 ， 它 向 其 他 Actor 发 送 消息 并 且 
接收 来 自 其 他 Actor 的 消息 。Actor 和 线程 之 间 并 没有 关联 。 线 程 可 以 执行 不 同 的 Actor， 而 一 个 Actor 
也 可 以 由 不 同 的 线程 执行 。Actor 没有 共享 状态 ，GPars 保证 了 Actor 的 代码 可 被 执行 , 这 样 就 不 会 丢失 
消息 。 每 当 线 程 被 分 配给 一 个 Actor 时 ,内 存 也 会 随 之 同步 ， 因 此 不 需要 显 式 同步 。Actor 有 两 种 类 型 。 
口 无 状态 Actor: 基于 DynamicDispatchActor 类 或 者 ReactiveActor 类 。 它 们 无 法 追踪 此 
前 曾 有 哪些 消息 到 达 。 
口 有 状态 Actor: 基于 DefaultActor 类 。 该 Actor 可 以 管理 内 部 状态 ， 每 个 消息 都 可 以 改变 该 

状态 以 及 处 理 该 消息 的 方式 。 

Actor 最 大 的 好 处 之 一 在 于 你 可 以 在 系统 中 获得 否 吐 量 。 只 有 在 需要 处 理 消息 时 , 才 会 执行 Actor， 
因此 你 可 以 拥有 大 量 需 要 少量 线程 运行 的 Actor。 

当 使 用 Actor 时 ， 你 会 使 用 下 述 方法 来 做 最 常见 的 操作 。 


hn 
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口 send () : 该 方法 向 Actor 异步 发 送 消 息 。 该 方法 将 立即 返回 ， 并 不 会 等 待 响 应 。 
口 sendaAndwait () : 该 方法 向 Actor 发 送 消息 并 且 等 待 响应 。 
口 sendqandcontinue () : 该 方法 向 Actor 发 送 消息 并 且 立 即 返回 。 它 接收 一 个 闭 包 作为 参数 ， 
并 在 该 消息 的 响应 到 达 时 执行 该 闭 包 。 
口 sengdAndPromise(): 该 方法 向 Actor 发 送 消息 并 且 返 回 一 个 Promise， 可 以 通过 该 Promise 
来 获得 该 消息 的 响应 。 
口 react () : 该 方法 将 被 调用 来 处 理 下 一 条 消息 。 通 常 ， 该 方法 会 包含 在 一 个 循环 语句 中 ， 以 
处 理 Actor 接收 到 的 所 有 消息 。 
口 reply () : 该 方法 向 消息 的 发 送 者 发 送 应 答 。 
口 forward() : 该 方法 允许 我 们 将 接收 到 的 消息 发 送 给 另 一 个 Actor。 
口 join() : 该 方法 等 待 Actor 结 

还 有 其 他 不 同 的 方法 可 以 创建 Actor。 

你 可 以 使 用 Actors 类 的 actor () 方 法 。 在 这 种 情况 下 ， 你 可 以 使 用 闭 包 来 指定 Actor 的 代码 。 
Actor 将 立即 开始 执行 。 

你 可 以 扩展 Defaultactor 类 并 且 实 现 act () 方 法 。 在 这 种 情况 下 ， 我 们 必须 调用 Actor 的 
start () 方 法 来 开始 其 执行 过 程 。 

你 可 以 扩展 DynamicDispatchaCtor 类 ， 并 日 实现 onMessage() 方 法 的 一 个 或 多 个 版 本 ( Actor 
可 接收 到 的 每 种 消息 各 一 个 版 本 )。 

最 后 ，Actor 有 生命 周期 以 及 一 些 相关 的 方法 ,你 可 以 实现 这 些 方法 来 在 该 生命 周期 的 确定 状态 
下 执行 操作 。 这 些 方 法 包括 : 


DQ afterStart () 


可 


口 afterStop () 
口 onTimeOut () 


D onInterrupt() 


D onException () 

这 些 方 法 的 功能 恰 如 其 名 ， 因 此 无 须 额外 描述 。 

下 面 用 三 个 例子 来 说 明 如 何 使 用 Actor。 在 第 一 个 例子 中 , 仅 创 建 两 个 基本 的 Actor 对 象 , 并 且 将 
在 它们 之 间 发 送 一 条 消息 。 

创建 一 个 名 为 Example7 的 类 ， 其 中 含有 main() 方 法 。 


import groovyx.gpars.actor.Actor 
import groovyx.gpars.actor.Actors 


class Example7 { 


static main(args) { 


然后 , 使 用 Actor 类 的 actor () 方 法 创建 一 个 Actor。 在 该 Actor 的 代码 中 , 我 们 包含 了 react () 
方法 的 代码 。 在 我 们 的 例子 中 ， 当 消息 到 达 时 ， 在 控制 台 输出 它 ， 然 后 发 送 对 该 消息 的 响应 ， 其 中 包 3 
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括 当前 线程 的 名 称 和 文本 “Ok”。 


def receiver = Actors.actor { 
println Thread.currentThread() .getName()+": Receiver is running" 
react { msg -> 

println Thread.currentThread() .getName()+": Recevier: I've 

received a message: "+msg 
reply Thread.currentThread() .getName()+": Ok" 

} 

println Thread.currentThread() .getName()+": Receiver has finished" 


} 

然后 ,我 们 再 次 使 用 actors () 方 法 创建 另 一 个 Actor。 在 这 种 情况 下 ， 我 们 使 用 sena () 方 法 向 
另 一 个 Actor 发 送 一 条 消息 ， 其 中 还 包含 了 在 Actor 收 到 消息 时 react () 方 法 要 执行 的 代码 。 它 将 在 
控制 台中 输出 消息 。 


def sender = Actors.actor { 


println Thread.currentThread() .getName()+": Sender is running" 
receiver.send Thread.currentThread() .getName()+": From sender to 
receiver" 


react { msg -> 
println Thread.currentThread() .getName()+": Sender: The response 
has arrived: "+msg 
} 
println Thread.currentThread() .getName()+": Sender has finished" 


} 
正如 之 前 解释 的 那样 , 两 个 Actor 都 将 立即 开始 执行 。 最 后 , 在 main () 方 法 中 , 我 们 使 用 join () 
方法 等 待 两 个 线程 结 


sender.join(); 
receiver.join(); 


< 


下 面 的 屏幕 截 区 


Actor Thread 
Actor Thread 
Actor Thread 
Actor Thread 
Actor Thread 
Actor Thread 


示 了 执行 本 例 后 的 输出 结 


: Sender is running 

: Sender has finished 

: Receiver is running 

: Receiver has finished 

: Recevier: I've received a message: Actor Thread 2: From sender to receiver 
: Sender: The response has arrived: Actor Thread 1: Ok 


Nb 


你 可 以 看 到 发 送 方 发 送 的 消息 如 何 到 达 接 收 方 ， 而 接收 方 如 何 将 应 答 发 送 到 发 送 方 。 
第 二 个 示例 是 生产 者 /消费 者 问题 的 实现 。 首 先 ， 我 们 将 实现 消费 者 类 。 创建 一 个 名 为 Consumer 
的 类 ， 并 且 指 定 它 实现 DefaultActor 类 。 


import groovyx.gpars.actor.Actor 
import groovyx.gpars.actor.DefaultActor 


class Consumer extends DefaultActor { 


然后 ， 实 现 包含 Actor 主 代码 的 act () 方 法 。 我 们 使 用 循环 语句 处 理 所 有 消息 和 react () 方 法 ， 
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该 方法 将 在 Actor 接收 到 的 每 条 消息 上 调用 。 我 们 将 参数 5000 传递 给 react () 方 法 。 如 果 Actor 等 待 
了 5 秒 钟 却 没 有 收 到 消息 ,那么 它 将 抛 出 一 个 超时 错误 并 结束 其 执行 。 对 于 每 条 消息 ,我 们 只 在 控制 
台 上 输出 关于 该 消息 和 发 送 方 的 信息 。 


void act() { 
loop { 
react (5000) { msg -> 


printlin 中 炎炎 火炎 火炎 类 类 炎炎 火炎 火炎 类 类 类 类 火炎 火炎 类 类 类 类 类 类 炎 看， 


println "Thread Name: "+Thread.currentThread() .getName(); 
println "Sender: "+sender.remoteClass; 


println "Message: "+msg; 
println 人 


} 
然后 ， 我 们 执行 Actor 的 一 些 生 命 周 期 方法 ， 以 便 在 控制 台中 输出 有 关 这 些 事件 的 信息 。 


void afterStart() { 
println "Consumer: After Start"; 


} 
void afterStop(List undeliveredMessages) { 
println "Consumer: After Stop"; 
println "Undelivered Messages: "+undeliveredMessages.size() 
} 
void onInterrupt (InterruptedException e) { 
println "Consumer: Interrupted" 
e.printStackTrace () 


terminate() 


} 
void onTimeout () { 
println "Consumer: Timeout" 
terminate() 
} 
void onException(Throwable e) { 
println "Consumer: An exception has ocurred" 
e.printStackTrace() 


} 
现在 该 实现 生产 者 类 了 。 创 建 一 个 名 为 Producer 的 类 ， 并 且 指 定 它 实现 DefaultActor 类 。 
该 类 有 两 个 属性 , 名 称 分 别 是 发 送 消息 的 Producer 和 consumer, 并 且 使 用 构造 函数 来 初始 化 它们 。 


import java.lang.invoke.AbstractValidatingLambdaMetafactory 
import java.util.List 


import groovyx.gpars.actor.DefaultActor 
import groovyx.gpars.actor.Actor 


class Producer extends DefaultActor { 
private Actor consumer; 


private String name; 
def Producer (Actor consumer, String name) { 
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this.consumer = consumer 
this.name = name 


} 
现在 ,使 用 Actor 的 主 代码 实现 act () 方 法 。 它 将 向 消费 者 发 送 100 条 消息 并 结束 执行 。 


void act() { 

def i; 

for (i = 0; i<100; i++) { 
def msg = Thread.currentThread!() .getName() 
了 SS "3 "name 
msg+= ": Message "+i; 
consumer.send msg; 
Thread.currentThread() .sleep(500); 


} 
最 后 ， 我 们 编写 afterstop() 方 法 的 代码 ， 该 方法 在 控制 台 输 出 一 条 消息 。 


void afterStop(List undeliveredMessages) { 
println name+": After Stop"; 
} 
} 


现在 ,创建 一 个 名 为 Example8 的 类 ， 其 中 含有 main () 方 法 。 


import groovyx.gpars.actor.Actor 
import groovyx.gpars.actor.DefaultActor 


class Example8 { 


static main(args) { 
Consumer consumer = new Consumer (); 
consumer.start (); 


Producer producer!l1 = new Producer (consumer, "Producer 1");，; 
Producer producer2 = new Producer (consumer, "Producer 2"); 
producerl .start (); 

Thread.currentThread() .sleep(300); 

producer2.start (); 

consumer.join(); 

println "Main end" 


} 

在 main () 方 法 中 ， 我 们 创建 一 个 消费 者 和 两 个 生产 者 ， 并 且 使 用 start () 方 法 启动 三 个 Actor。 
我 们 使 用 join () 方 法 等 待 消费 者 Actor 结束 。 在 生产 者 发 送 Timeout 异常 5 秒 钟 后 ,该 Actor 将 会 
结束 。 

下 面 的 屏幕 截 


中 
a 


示 了 执行 该 例 时 的 输出 结 
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素 太 玉米 本 本 本 本 可 六 本 冰 本 本 本 本 本 六 本 本本 本 可 本 本 冰 本 本 本 


Thread Name: Actor Thread 3 
Sender: class groovyx.gpars.actor.impl.MessageStream$RemoteMessageStream 
Message: Actor Thread 2: Producer 1: Message 99 


玉林 本 六 订 林 本 本 末末 本 六 本 本 本 本 末末 本 术 订 本 本 本本 森林 本本 


末末 订 率 订 订 本 订 率 订 本 订 订 本 本 末末 订 订 订 订 本 本 本本 本 订 林 本 


Thread Name: Actor Thread 3 

Sender: class groovyx.gpars.actor.impl.MessageStream$RemoteMessageStream 
Message: Actor Thread 1: Producer 2: Message 99 

床 床 率 末 末末 末末 末末 末末 末末 末末 末末 永宁 末 素 末末 末末 末末 末 

Producer 1: After Stop 

Producer 2: After Stop 

Consumer: Timeout 

Consumer: After Stop 

Undelivered Messages: 8 

Main end 


你 可 以 看 到 生产 者 如 何 结束 其 执行 并 日 输出 afterstop() 方 法 的 消息 。 然 后 ， 消 费 者 出 现 一 个 
Timeout 异常 ， 并 且 执 行 onTimeout () 和 afterStop () 方 法 。 然 后 ， 主 程序 结束 其 执行 。 

最 后 一 个 关于 Actor 的 示例 将 向 你 展示 如 何 使 用 无 状态 Actor。 首先 , 创建 一 个 名 为 Event 的 类 ， 
该 类 有 两 个 属性 : 一 个 名 为 msg 的 string 属性 和 一 个 名 为 date 的 Date 属性 。 


class Event { 


String msg; 
Date date; 
@Override 
BUuBLic .String toString() ‘{ 
return "Event: "+msg+": on "+date; 
} 


} 

现在 ,创建 一 个 名 为 Logger 的 类 ， 并 且 指 定 它 扩展 DynamicDispatchactor 类 。 我 们 实现 
onMessage() 方 法 的 三 个 版 本 ,它们 分 别 接收 Event 对 象 、String 对 象 和 Exception 对 象 作为 参 
数 。 我 们 在 控制 台中 仪 输出 有 关 它 收 到 的 消息 的 信息 。 


class Logger extends DynamicDispatchActor { 


def onMessage (Event event) { 
println "Logger: "+Thread.currentThread() .getName ()+": "+event; 
replyIfExists "Logger: Event received"; 
} 
def onMessage (String msg) { 
println "Logger: "+Thread.currentThread() .getName ( ) + 
": Direct mgs: "+msg; 
replyIfExists "Logger: Direct msg received"; 
} 
def onMessage (Exception e) { 
println "Logger: "+Thread.currentThread() .getName()+": Error: 
"+e.getLocalizedMessage(); 
replyIfExists "Logger: Error received" 


} 


} 
最 后 , 创建 一 个 名 为 Example9 的 类 以 及 main() 方 法 。 首先 , 创建 一 个 Logger 类 的 Actor, 并 
使 用 start () 方 法 启动 其 执行 。 
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import groovyx.gpars.actor.Actor 
import groovyx.gpars.actor.Actors 


class Example9 { 
static main(args) { 
Logger logger = new Logger();} 
logger.start (); 


然后 ， 使 用 Actors 类 的 actor () 方 法 创建 另 一 个 Actor。 在 代码 中 ， 我 们 向 Logger 类 发 送 三 个 
消息 (每 种 类 型 一 个 )， 并 且 包 含 用 于 处 理 三 个 响应 的 代码 。 


def tester = Actors.actor { 
println "Tester: "+Thread.currentThread() .getName ()+ 
": is running" 
loop(3) { 
react (1000) { msg -> 
println "Tester: "+Thread.currentThread() .getName () + 


": I've received a message: "+msg 
} 
于 
Event event = new Event () 
event .msg = "I'm an event" 


event .date = new Date() 

logger.send event 

logger.send "I'm a message" 

Exception e = new Exception("I'm an exception") 

logger.send e; 

println "Tester: "+Thread.currentThread() .getName () + 
": Tester has finished" 


} 


最 后 ,使 用 join () 方 法 等 待 tester Actor 结束 ,使 用 stop () 方 法 停止 logger Actor， 并 且 使 用 
join() 方 法 等 待 其 最 终结 束 。 


tester.join(); 
logger.stop(); 
logger.join(); 
println "Main End" 


Tr 


下 面 的 屏幕 截图 展示 了 执行 本 例 后 的 输出 结果 。 


Tester: Actor Thread 
Tester: Actor Thread 
Logger: Actor Thread 
Tester: Actor Thread 
Logger: Actor Thread 
Tester: Actor Thread 
Logger: Actor Thread 
Tester: Actor Thread 
Main End 


: is running 

: Tester has finished 

: Event: I'm an event: on Tue May 89 19:51:21 CEST 2817 
I've received a message: Logger: Event received 

: Direct mgs: I'm a message 

I've received a message: Logger: Direct msg received 
: Error: I'm an exception 

I've received a message: Logger: Error received 
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13.3.5 Agent 


Agent 保护 可 变数 据 对 象 , 使 之 可 以 在 线程 之 间 安 全 地 共享 。Agent 接受 消息 并 以 异步 方式 处 理 它 
们 。 消 息 是 可 以 在 Agent 内 部 执行 的 函数 或 Groovy 闭 包 。 函 数 的 返回 值 或 团 包 将 成 为 Agent 的 新 值 / 
状态 。 函 数 或 闭 包 将 Agent 的 当前 值 /状态 作为 参数 。 
我 们 发 送 给 Agent 的 命令 是 按 顺序 存储 的 , 而 且 是 一 个 接 一 个 地 处 理 , 因此 不 会 出 现任 何 竞争 条 件 。 
要 创建 Agent， 需 要 创建 Agent 类 的 一 个 新 对 象 ， 用 Agent 中 存储 的 取 值 类 型 对 Agent 类 进行 参 
数 化 。 
当 你 使 用 Agent 时 ， 通常 使 用 以 下 方法 。 
口 send() : 该 方法 向 Agent 发 送 一 个 命令 。 
口 adgdListener (): 该 方法 添加 一 个 监听 器 ， 每 当 Agent 的 值 发 生变 化 时 就 会 得 到 通知 。 
口 addValigdator() : 该 方法 添加 一 个 类 似 于 监听 器 的 验证 器 ,但 是 可 以 拒绝 对 抛 出 异常 的 
Agent 的 值 做 出 更 改 。 
让 我 们 实现 一 个 示例 ,看 看 如 何 使 用 Agent。 首先 , 创建 一 个 名 为 Account 的 类 ， 它 含有 一 个 名 
为 value 的 内 部 整 型 属性 ， 一 个 名 为 increment () 的 方法 〈 用 于 递增 value 属性 的 值 )， 一 个 名 为 
decrement () 的 方法 (用 于 递减 value 属性 的 值 )， 以 及 返回 value 属性 值 的 方法 。 


class Account { 
private int value = 0; 
def void increment (int amount) { 
println "Account.increment: "+Thread.currentThread() .getName()+": " 
+amount; 


value+=amount 
} 
def void decrement (int amount) { 
println "Account.decrement: "+Thread.currentThread() .getName()+": " 
+amount; 
value-=amount 
} 
def int getValue() { 
return value; 


} 


} 
然后 ,创建 一 个 名 为 Example10 的 类 以 及 main () 方 法 。 创 建 一 个 存储 account 对 象 的 新 Agent。 


class Example10 { 


static main(args) { 


Agent agent = new Agent<Account>(new Account()) 


然后 ， 创 建 一 个 Actor， 对 该 Agent 的 Account 对 象 调用 100 次 increment () 方 法 。 你 可 以 使 
用 it 变量 来 访问 该 Agent 的 当前 值 。 


def incrementer = Actors.actor { 
for (def i=0; i<100; i++) { 
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agent.send {it.increment (1000)} 
} 


} 


现在 ,创建 另 一 个 Actor。 该 Actor 将 对 存储 在 该 Agent 
方法 [ey 


1 的 Account 对 象 调 用 99 次 aecrement () 


def decrementer = Actors.actor { 
for (def i=0; i<99; i++) { 


agent.send {it.decrement (1000)} 
} 


} 


最 后 ， 等 待 两 个 Actor 执行 结束 并 且 


输出 该 Agent 的 最 终 值 。 
incrementer.join() 
decrementer.join!() 
println "Final value: "+agent.val.getValue() 


如 果 执 行 该 示例 ， 你 将 会 看 到 结果 为 1000( 100 次 递增 操作 和 99 次 递减 操作 )。 
13.3.6 Dataflow 


Dataflow 为 生产 者 和 消费 者 之 间 共 享 数据 提供 了 安全 通道 。Dataflow 最 基本 的 元 素 是 Dataflow 
变量 。 你 只 需 创 建 一 个 Dataflows 类 的 对 象 ， 然 后 我 们 可 以 在 其 之 上 定义 
要 特征 


变量 。 这 些 变量 有 两 个 重 
Bs 


口 只 能 设置 一 次 值 。 


口 当 一 个 任务 试图 使 用 Dataflow 变量 的 值 时 ， 它 的 执行 线程 将 被 阻塞 ， 
使 用 Dataflow 变量 可 以 获得 以 下 好 处 。 

口 没有 竞争 条 件 。 

口 不 需要 显 式 地 使 用 锁 或 其 他 同步 机 制 。 

口 如 果 存 在 由 Dataflow 变量 引发 的 死 锁 ， 可 以 确定 其 原因 。 


我 们 来 看 一 个 使 用 Dataflow 变量 的 例子 。 首 先 , 创建 一 个 名 为 
方法 。 


直到 该 变量 有 值 为 止 。 


Examplel 的 类 ,其 中 含有 main () 


import static groovyx.gpars.dataflow.Dataflow.task 
import java.util.concurrent.TimeUnit 
import groovyx.gpars.dataflow.Dataflows 


class Examplell { 


static main(args) { 


现在 ,创建 一 个 Dataflows 对 象 和 一 个 Date 对 象 (其 中 含有 该 方法 启动 执行 的 日 期 )。 
def store = new Dataflows() 
def mainSstart 


= new Date(); 
println "Main 


: Start "+mainStart 
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现在 , 启动 一 个 逻辑 任务 ,， 它 将 由 另 一 个 使 用 task 函数 的 线程 执行 。 将 其 执行 线程 休 眼 1 秒 钟 ， 
然后 在 Dataflows 对 象 中 创建 一 个 变量 ， 并 且 为 其 赋值 为 3。 


task { 
TimeUnit.SECONDS.sleep (1) 
store.x = 3 


} 
现在 , 创建 男 一 个 与 前 述 任务 类 似 的 任务 。 我 们 将 执行 线程 休眠 2 秒 钟 ， 然 后 将 一 个 名 为 y 的 变 
量 指派 给 它 ， 其 值 为 4。 


task { 
TimeUnit.SECONDS.sleep (2) 
store.y = 4 


} 
然后 ， ns 该 任务 将 计算 变量 x 和 y 之 间 的 和 ， 并 且 将 该 值 存储 在 另 一 个 名 为 z 
的 Dataflow 变量 中 。 


task { 
def start = new Date() 
println "Calculus Task: "+start 
store.z = store.x + store.y 
def end = new Date() 
println "Calculus Task: "+end 


} 
最 后 ， 在 main() 方 法 中 输出 变量 z 的 值 。 


println "Main: The final result is: "+store.z 
println "Main: End" 
} 
} 


下 面 的 屏幕 截图 显示 了 执行 这 个 例子 后 的 输出 结果 。 


Main: Start Tue May 89 16:19:49 CEST 2817 
Calculus Task: Tue May 89 16:19:58 CEST 2917 
Main: The final result is: 7 

Main: End 

Calculus Task: Tue May 89 16:19:52 CEST 2817 


我 们 还 可 以 创建 一 个 DataflowVariable 类 的 对 象 ， 并 且 使 用 << 运 算 符 给 它 赋 值 。 例 如 ， 创 建 
一 个 名 为 Example13 的 类 以 及 main () 方 法 ， 并 且 创 建 一 个 名 为 data 的 DataflowVariable 类 的 
对 象 。 


import static groovyx.gpars.dataflow.Dataflow.task; 
import java.util.concurrent.TimeUnit 

import groovyx.gpars.dataflow.DataflowVariable; 
class Examplel3 { 


static main(args) { 
def data = new DataflowVariable() 
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现在 ,创建 一 个 任务 将 其 执行 线程 休眠 2 秒 钟 ， 并 且 使 用 << 运 算 符 将 值 2 赋 给 该 变量 。 


task { 
println Thread.currentThread() .getName()+": Wait two seconds to 
set the value" 


TimeUnit.SECONDS.sleep (2); 
data. < 2 


} 
最 后 ， 在 main () 方 法 中 包含 一 个 输出 aata 变量 取 值 的 语句 。 


println Thread.currentThread() .getName()+" : Bind handler : " 
+data.val; 


} 
} 


当 你 执行 该 示例 时 ， 将 看 到 任务 所 输出 的 消息 ， 以 及 两 秒 之 后 由 main () 方 法 所 输出 的 消 ) 
中 含有 DataflowVariable 对 象 的 值 。 

Dataflow 提供 的 另 一 个 元 素 是 Dataflow 广播 。 它 允许 我 们 在 生产 者 和 消费 者 之 间 发 送 数据 ， 就 
像 在 它们 之 间 存 在 一 个 队列 一 样 。 它 提供 了 一 种 发 布 一 订阅 机 制 ， 以 便 支持 多 个 生产 者 与 一 个 或 多 个 
消费 者 交互 的 情况 。 

下 面 来 看 看 这 种 机 制 是 如 何 运作 的 。 首 先 ， 创 建 一 个 名 为 Producer 的 类 。 它 有 两 个 私有 属性 : 
一 个 名 为 proadcast 的 DataflowBroadcast 对 象 和 一 个 名 为 name 的 String 对 象 。 使 用 该 类 的 
构造 函数 来 初始 化 这 两 个 属性 。 


import java.util.concurrent.TimeUnit 
import groovyx.gpars.dataflow.DataflowBroadcast; 


省 
I 


class Producer { 


private DataflowBroadcast broadcast 

private String name 

public Producer (DataflowBroadcast broadcast, String name) { 
this.broadcast = broadcast 
this.name = name 


} 


现在 ， 实 现 一 个 名 为 execute () 的 方法 。 在 该 方法 中 ， 使 用 << 运 算 符 将 100 个 string 对 象 写 
人 broadqcast 对 象 。 在 每 条 消息 之 间 ， 将 执行 线程 休眠 500 上 毫秒。 


public voidq execute() { 
for (int i=0; i<100; i++) { 
def msg = name + " MSG "+i+" : "+new Date(); 


broadcast << msg 
TimeUnit .MILLISECONDS.sleep(500); 
} 
} 
} 


现在 , 创建 一 个 名 为 consumer 的 类 。 该 类 将 和 Producer 类 具有 相同 的 属性 。 使 用 该 类 的 构造 
函数 来 初始 化 这 两 个 属性 。 
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import groovyx.gpars.dataflow.DataflowBroadcast 
import groovyx.gpars.dataflow.DataflowReadChannel 


class Consumer { 


private DataflowBroadcast broadcast 

private String name 

public Consumer (DataflowBroadcast broadcast, String name) { 
this.broadcast = broadcast 
this.name = name 


} 


现在 ， 实 现 execute () 方 法 。 首 先 ， 创 建 一 个 DataflowReadChannel 类 的 对 象 ， 读 取 来 自 
DataflowBroadcast 的 值 。 然 后 ， 使 用 val 函数 编写 200 条 消息 。 该 函数 将 会 休眠 当前 线程 ， 直 到 
DataflowBroadcast 中 的 新 数据 可 用 。 


public voidq execute() { 
DataflowReadChannel stream = broadcast.createReadChannel () 
for (int i=0; i<200; i++) { 
println "Consumer "+name+": "+stream.val 


} 

我 们 有 了 生产 者 和 消费 者 。 现 在 该 让 它们 工作 了 。 创 建 一 个 名 为 Example12 的 类 ， 其 中 含有 
main() 方 法 。 创 建 一 个 DataflowBroadcast 对 象 、 两 个 生产 者 和 三 个 消费 者 。 创 建 一 个 线程 来 执 
行 每 个 生产 者 和 每 个 消费 者 。 然 后 ， 使 用 join () 方 法 等 待 它们 结束 。 


import groovyx.gpars.dataflow.DataflowBroadcast 
import static groovyx.gpars.dataflow.Dataflow.task 


Class Examplel2 { 


static main(args) { 

DataflowBroadcast dataflow = new DataflowBroadcast() 

def producerl1l, producer?2, consumerl, consumer2, consumer3 

Thread threadl = Thread.start { 
producer1 = new Producer (dataflow, "Producer 1") 
producerl1 .execute () 

} 

Thread thread2 = Thread.start { 
producer2 = new Producer (dataflow, "Producer 2") 
producer2 .execute () 

} 

Thread thread3 = Thread.startt{ 
consumerl1 = new Consumer (dataflow, "Consumer 1") 
consumerl1 .execute() 

lj 

Thread thread4 = Thread.start { 
Consumer2 = new Consumer (dataflow, "Consumer 2") 
consumer2 .execute() 

} 

Thread thread5 = Thread.start { 
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consumer3 = new Consumer (dataflow, 


consumer3 . exe 

了 

threadl .join() 
threadq2 .join() 
threadq3 .join() 
thread4.join() 
thread5 .join() 
println "Main: 


cute() 


end" 


下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 结果 。 


"Consumer 3") 


Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Main: end 


Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 
Consumer 


时 
3 
上 
1 
2 
3 
2 
1: 
3 
2 
2 
3 
1 
3 
pi 


: Producer 1 MSG 
: Producer 1 MSG 
: Producer 1 MSG 
: Producer 1 MSG 
: Producer 1 MSG 
: Producer 1 MSG 
: Producer 2 MSG 

Producer 2 MSG 
: Producer 2 MSG 
: Producer 2 MSG 
: Producer 1 MSG 
: Producer 2 MSG 
: Producer 2 MSG 
: Producer 1 MSG 
: Producer 1 MSG 


97 : Tue May 
97 : Tue May 
97 : Tue May 
98 : Tue May 
98 : Tue May 
98 : Tue May 
98 : Tue May 
98 : Tue May 
98 : Tue May 
99 : Tue May 
99 : Tue May 


99 : Tue May 
99 : Tue May 
99 : Tue May 
99 : Tue May 


89 
89 
89 
99 
99 
99 
99 
99 
99 
99 
99 
99 
99 
99 
29 


16:21:34 CEST 2817 
16:21:34 CEST 2817 
16:21:34 CEST 2817 
16:21:34 CEST 2817 
16:21:34 CEST 2817 
16:21:34 CEST 2817 
16:21:34 CEST 2817 
16:21:34 CEST 2817 
16:21:34 CEST 2817 
16:21:35 CEST 2817 
16:21:35 CEST 2817 
16:21:35 CEST 2817 
16:21:35 CEST 2817 
16:21:35 CEST 2817 
16:21:35 CEST 2817 


可 以 看 到 由 生产 者 生成 的 每 条 消息 如 何 到 达 三 个 消费 者 。 


Dataflow 提供 的 另 一 个 功能 是 
道 列表 作为 参数 ， 它 将 从 全 部 含有 可 读 值 的 通道 中 选择 一 个 。 该 函数 返回 一 个 SelectResult 对 象 ， 


使 月 


一 个 名 为 ] 


日 select () 函数 从 多 个 通道 中 选择 一 个 值 。 该 函数 接收 一 个 通 


其 中 含有 返回 的 值 和 它 所 选 通道 的 信息 。 这 种 机 制 也 是 可 配置 的 , 例如 , 对 某 些 渠道 进行 优先 级 排序 。 
我 们 来 看 看 这 种 机 制 是 如 何 运 作 的 。 首 先 ， 创 到 


Examplel4 的 类 ， 其 中 含有 main() 


方法 。 创 建 名 为 sourcel1、source2 和 source3 的 三 个 DataflowVariable 对 象 。 


import static groovyx.gpars.dataflow.Dataflow.task 
import static groovyx.gpars.dataflow.Dataflow.select 
import java.util.concurrent.TimeUnit 
import groovyx.gpars.dataflow.DataflowVariable 


class Example14 { 
static main(args) 


{ 


def sourcel = new DataflowVariable!() 
def source2 = new DataflowVariable!() 
def source3 = new DataflowVariable!() 


现在 ,创建 三 个 任务 来 为 每 个 数据 源 提供 一 个 值 。 每 个 任务 在 为 其 DataflowVariable 对 象 赋 


值 之 前 ， 会 将 其 执行 线程 体 | 


task { 


TimeUnit.SECONDS.sleep(3); 


民 不 同 的 时 间 。 
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sourcel << "sourcel" 


} 


task { 
TimeUnit.SECONDS.sleep (5); 
source2 << "source2" 


} 


task { 
TimeUnit.SECONDS.sleep (1); 
source3 << "source3" 


} 
现在 ,使 用 select 函数 从 这 些 数 据 源 绪 取 值 ， 并 且 将 其 输出 到 控制 全。 


def result = select([sourcel, source2, source3]) 
println "Main: "+result.select() 


} 
} 


下 面 的 屏幕 截图 显示 了 执行 该 例 后 的 输出 结果 。 


Main: SelectResult{index=2, value=source3} 


在 本 例 中 ，source3 对 象 首先 得 到 值 ， 因 此 select 函数 将 在 一 秒 钟 之 后 返回 它 。 

我 们 要 分 析 的 最 后 一 种 Dataflow 机 制 是 运算 符 。 运 算 符 从 输入 通道 接收 值 , 并 且 生 成 新 值 写 人 输 
出 通道 。 所 有 这 些 通道 都 是 Dataflow 的 变量 。 运 算 符 将 等 待 所 有 输入 通道 ， 直 到 它 开始 执行 为 止 。 

我 们 来 看 看 这 种 机 制 是 如 何 运行 的 。 创建 一 个 名 为 Example15 的 类 , 其 中 含有 main() 方 法 。 创 
建 各 为 a、p、c、4 的 四 个 DataflowVariable 对 象 。 


import groovyx.gpars.dataflow.DataflowVariable; 
import static groovyx.gpars.dataflow.Dataflow.operator; 
import java.util.concurrent.TimeUnit 


Class Exarmple15 { 


static main(args) { 


def a = new DataflowVariable(); 
def b = new DataflowVariable(); 
def c = new DataflowVariable(); 
def d = new DataflowVariable(); 
现在 使 用 operator 命令 创建 一 个 名 为 op 的 新 运算 符 。 它 接收 三 个 输入 ， 即 Dataflow 变量 a、 


b 和 c， 并 且 返 回 Dataflow 变量 a 的 值 。 我 们 使 用 bindqoutput 函数 来 确定 输出 的 值 。 


def op = operator (inputs: [a, b, c], outputs: [d]) {x, y, z -> 
println "Operator" 
bindOutput 0, x +Yy+z 

} 
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最 后 ， 为 变量 a、b 和 c 赋值 ， 并 且 使 用 变量 a 的 val 属性 将 DataflowVariable 的 值 输出 到 
控制 台 。 
to 
Be 5. 
Ce 
println "Main: "+d.val 
} 
} 


当 我 们 将 值 赋 给 三 个 DataflowVariable 对 象 时 ， 运 算 符 执行 其 代码 。 当 其 完成 之 后 ， 
DataflowVariable qd 就 有 了 值 ， 并 且 在 main () 方 法 的 最 后 一 条 语句 中 输出 。 
下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 结果 。 


Operator 
Main: 15 


13.4 ”Scala 的 并 发 处 理 


Scala 是 一 种 通用 的 多 范式 编程 语言 , 具有 面向 对 象 和 函数 式 编程 的 特点 。 它 的 代码 被 编译 成 Java 
字 节 码 。 它 提供 了 Java 互 操 作 性 ， 因 此 你 可 以 在 Scala 代码 中 使 用 Java 元素 (包括 Java 并 发 API )， 
也 可 以 在 Java 程序 中 使 用 用 Scala 编写 的 库 。 

正如 我 们 在 介绍 Clojure 和 Groovy 时 提 到 的 ， 本 节 的 主要 目的 不 是 介绍 Scala 编程 语言 及 其 安装 
和 配置 。 可 通过 The Scala Programming Language 官网 下 载 使 用 Scala 工作 所 需 的 工具 。 你 可 以 在 IDE 
中 安装 插件 以 获得 Scala 支持 环境 。 例 如 ，Eclipse 就 有 Scala IDE 插件 ， 可 以 通过 Eclipse Marketplace 
进行 安装 。 

Scala 并 发 模型 基于 Future 和 Promise。Future 存储 了 一 个 还 不 存在 的 值 ， 该 值 将 由 一 个 异步 任务 
来 计算 ， 而 该 任务 将 由 另 一 个 线程 执行 。Future 使 用 一 种 非 阻 塞 机 制 ， 并 且 当 该 值 可 用 时 (或 者 发 生 
错误 时 ) 利用 回调 函数 来 处 理 该 值 。Promise 是 一 种 机 制 ， 它 可 以 让 你 完成 ( 给 定 一 个 值 ) Future。 
ExecutionContext 对 象 是 Scala 并 发 API 中 非常 重要 的 一 个 元 素 。 它 负责 执行 应 用 程序 中 启动 
的 Future 对 象 。 默 认 情 况 下 ， 它 由 Java 并 发 API 的 ForkJoinPool 支持 ,不 过 你 也 可 以 创建 一 个 不 
同 的 线程 池 。 对 于 大 多 数 需 求 而 言 ， 都 可 以 使 用 默认 的 Bxecutioncontext ， 注 意 包含 以 下 语句 。 


import ExecutionContext.Implicits.global 


在 代码 的 import 部 分 ， 必 须要 包含 该 语句 。 


13.4.1 Scala 中 的 Future 对 象 


正如 前 面 提 到 的 ，Future 存储 的 值 还 不 存在 ,但 是 在 将 来 某 个 时 候 可 用 。 这 个 值 将 由 一 个 异步 任 
务 来 计算 ， 而 该 任务 将 由 另 一 个 线程 执行 。 大 多 数 情况 下 ， 要 在 定义 Future 之 时 指定 该 任务 ,并且 任 
务 将 按照 计划 在 将 来 某 一 时 刻 开 始 执行 。 


13.4” Scala 的 并 发 处 理 323 


Future 不 使 用 阻塞 机 制 来 获得 结果 。 你 可 以 将 一 个 或 多 个 回调 函数 关联 在 一 起 ， 当 Future 在 其 进 
程 中 有 一 个 值 或 异常 发 生 时 再 执行 。 

Future 有 两 个 可 能 的 返回 值 。 如 果 任 务 在 没有 错误 的 情况 下 结束 执行 并 返回 一 个 值 ， 
Future 已 经 成 功 完成 并 将 执行 成 功 回调 函数 。 当 一 个 Future 抛 出 异常 时 ，Future 执行 失败 ， 并 执行 
故障 回调 函数 。 

创建 Future 最 简单 的 方法 是 使 用 Future 类 的 apply () 方 法 。 该 方法 创建 并 调度 一 个 异步 计算 ， 
该 计算 将 执行 apply () 方 法 中 指定 的 代码 。 该 方法 将 返回 Future 对 象 。 

我 们 可 以 将 不 同 的 Future 回调 函数 关联 起 来 处 理 其 结果 。 这 些 回 调 函 数 有 如 下 几 种 。 

口 onComplete: 该 函数 在 Future 结束 执行 时 调用 ， 无 论 是 成 功 结束 还 是 错误 结束 。 在 该 函数 
的 代码 中 ， 应 该 包含 用 于 区 分 Future 是 否 错误 完成 的 代码 。 

口 onSuccess: 该 函数 在 Future 成 功 执 行 完毕 时 调用 。 

口 onFailure: 该 函数 在 Future 结束 执行 并 抛 出 异常 时 调用 。 

让 我 们 看 一 些 在 Scala 中 使 用 Future 的 例子 。 创 建 一 个 名 为 Task 的 类 和 一 个 名 为 doAction () 
的 方法 。 该 方法 将 接收 一 个 string Dud Int 值 作 为 参数 ,并且 返 回 一 个 string 对 象 。 在 内 
部 , 它 输出 关于 执行 任务 的 线程 的 信息 , 将 线程 休眠 参数 中 指定 的 秒 数 , 并 且 返 回 一 个 String 对 象 。 


class Task { 


def doAction(name : String, number: Int) : String = { 

Var result) 3 Streing 二 于 

println (Thread. er nh ea etiam Ch "+name+": Starting 
execution"); 

TimeUnit.SECONDS.sleep (number); 

println(Thread.currentThread() .getName()+": "+name+": End 
execution"); 

result = name +" has been sleeping for " + number + " seconds " 


return result; 
} 
} 


现在 ， 对 Future 类 做 一 些 测试 。 首 先 ， 为 本 例 包含 所 有 必需 的 类 ， 并 且 使 用 main ( ) 方 法 创建 
一 个 名 为 Testconcurrency 的 对 象 。 


import scala.concurrent .ExecutionContext 
import java.util.concurrent.ThreadPoolExecutor 
import java.util.concurrent .Executors 

import scala.concurrent .Future 

import ExecutionContext.Implicits.global 
import scala.util.{Success, Failure} 

import java.util.concurrent.TimeUnit 

object TestConcurrency { 


def main(args: Array[String]) { 


然后 , 使 用 Future 类 创建 10 个 Future 对 象 。 Future 将 创建 一 个 Task 对 象 并 且 调 用 soaction () 
方法 。 
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fOr (LT -10 .7,1{ 
val result : Future[lString] = Future { 
Var task : Task = new Task(); 
task.doAction("Task "+i,i); 


} 


然后 ， 将 oncomplete 回调 函数 与 结果 Future 对 象 相关 联 。 如 果 Future 以 异常 方式 ( 出现 故 障 ) 
结束 ， 我 们 将 输出 一 条 消息 。 否 则 ， 我 们 将 输出 Future 所 返回 的 值 。 


result onComplete { 
case Success (value) => println(value) 
case Failure(e) => println('"An error has occured: " 
+e.getMessage) 


于 
TimeUnit.SECONDS.sleep (20) 


下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 。 


ForkJoinPool-1-worker-5: Task 9: Starting execution 
ForkJoinPool-1-worker-1: Task 6: End execution 

Task 6 has been sleeping for 6 seconds 
ForkJoinPool-1-worker-1: Task 19: Starting execution 
ForkJoinPool-1-worker-3: Task 7: End execution 

Task 7 has been sleeping for 7 seconds 
ForkJoinPool-1-worker-7: Task 8: End execution 

Task 8 has been sleeping for 8 seconds 
ForkJoinPool-1-worker-5: Task 9: End execution 

Task 9 has been sleeping for 9 seconds 
ForkJoinPool-1-worker-1: Task 19: End execution 
Task 19 has been sleeping for 19 seconds 


现在 ， 创 建 一 个 名 为 Testconcurrency2 的 类 。 该 类 与 Testconcurrency 类 相似 ， 但 是 也 有 
一 处 重要 区 别 。 在 本 例 中 , 我 们 使 用 两 个 不 同 的 回调 函数 。 当 Future 成 功 结束 时 , 调用 onsuccess () 
回调 函数 。 当 Future 异常 结束 时 ， 则 调用 onFailure() 方 法 。 


import scala.concurrent .ExecutionContext 

import java.util.concurrent.ThreadPoolExecutor 
import java.util.concurrent .Executors 

import scala.concurrent .Future 
ExecutionContext.Implicits.global 
scala.util.{Success, Failure} 

import java.util.concurrent.TimeUnit 


impor 
impor 


object TestConcurrency2 { 
def main(args: Array[String]) { 
Ors "(i es EG 0 
val result : Future[lString] = Future { 
Var task : Task = new Task(); 
task.doAction("Task "+i,i); 
} 
result onSuccess { 
case Value => println(value); 
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} 
result onFailure { 
case e => println("An error has ocurred: "+e.getMessage); 


} 
} 
TimeUnit.SECONDS.sleep (20) 


} 

现在 我 们 将 实现 相同 的 版 本 ， 只 不 过 使 用 我 们 的 ExecutionContext 类 。 创 建 一 个 名 为 
TestConcurrency3 的 类 。 要 创建 ExecutionContext 对 象 ， 需 要 用 到 ExecutionContext 类 的 
fromExecutor () 方 法 。 将 这 些 方法 传递 给 Executor 对 象 ， 它 将 用 于 执行 ExecutionContext 的 
任务 。 使 用 Executor 类 的 newFixedThreadPoo1l () 方 法 创建 一 个 拥有 10 个 执行 线程 的 执行 器 。 


import scala.concurrent .EXecutionContext 
import java.util.concurrent.ThreadPoolExecutor 
import java.util.concurrent .Executors 

import scala.concurrent.Future 

import scala.util.{Success, Failure} 

import java.util.concurrent.TimeUnit 

object TestConcurrency3 { 


def main(args: Array[String]) { 
implicit val ec : ExecutionContext = ExecutionContext 
.fromExecutor (Executors.newFixedThreadPool (10)); 
£6 (LE = COLO yA 
val result : Future[lString] = Future { 
Var task : Task = new Task(); 
task.doAction("Task "+i,i); 
} 
result onSuccess { 
case Value => println(value); 
} 
result onFailure { 
case e => println('"An error has ocurred: "+e.getMessage); 
} 
} 
TimeUnit.SECONDS.sleep (20) 


上 

现在 ， 让 我 们 做 一 个 测试 ， 看 看 当 Future 抛 出 异常 时 会 发 生 什 么 。 创 建 一 个 名 为 rask 的 类 ， 并 
且 添 加 一 个 名 为 aoaction () 的 方法 ， 该 方法 接收 两 个 参数 ， 即 一 个 名 为 name 的 string 对 象 和 一 
个 名 为 number 的 Int 值 。 如 果 number 等 于 3， 则 aoaction () 方 法 抛 出 异常 。 和 否则， 使 之 与 此 前 
介绍 的 rask 类 具有 相同 的 行为 。 


laBs. Ta 区 


def doAction(name : String, number: Int) : String = { 
Var result : String = ""; 
if (number == 3) { 


throw new Exception("Error"); 
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println(Thread.currentThread() .getName()+": "+name+": Starting 
execution"); 

TimeUnit.SECONDS.sleep (number); 

println(Thread.currentThread() .getName()+": "+name+": End 
exeuction"); 

result = name +" has been sleeping for " + number + " seconds "; 


return result; 


} 


然后 ， 我 们 创建 Testconcurrency 类 ， 该 类 创建 10 个 Future 对 象 ， 并 将 


回调 函数 关联 到 一 起 。 


object TestConcurrency { 
def main(args: Array[String]) { 
// 含有 错误 的 第 一 个 例子 
Ee ns le < I 0 6 
val result : Future[lString] = Future { 
Var task : Task = new Task(); 
task.doAction("Task "+i,i); 
} 
result onComplete { 
case Success (value) => println(value) 
case Failure(e) => println('"An error has occured: " 
+e.getMessage) 
} 
} 
TimeUnit.SECONDS.sleep (20) 


I 


下 面 的 屏幕 截 


显示 了 执行 本 例 后 的 输出 。 


ForkJoinPool-1-worker-5: Task 1: Starting execution 
ForkJoinPool-1-worker-1: Task 2: Starting execution 
An error has occured: Error 

ForkJoinPool-1-worker-3: Task 4: Starting execution 
ForkJoinPool-1-worker-7: Task 5: Starting execution 


其 与 onComplete() 


当 doAction() 方 法 采用 参数 3 执行 时 , 该 方法 抛 出 一 个 异常 ,与 该 Future 相关 联 的 回调 函数 执 


a 


行 oncomplete () 方 法 的 Failure 情况 ， 并 输出 前 面 屏幕 截图 中 的 错误 消息 。 


在 前 面 的 例子 中 ， 我 们 只 为 每 个 事件 〈 不 管 成 功 还 是 失败 ) 关联 一 个 回调 函数 ,不 过 ,你 可 以 为 
每 个 事件 关联 多 个 回调 函数 。 让 我 们 看 一 个 例子 。 你 可 以 使 用 前 面 的 Task 对 象 之 一 ， 但 是 让 我 们 创 


建 一 个 新 的 Testconcurrency 类 。 我 们 将 oncomplete() 和 onsuccess() 


回调 函数 关联 到 每 个 


Future。 你 甚至 可 以 将 同一 类 型 的 多 个 回调 函数 (多 个 oncomplete() 、onSuccess () 或 onFailure() 


函数 ) 关联 到 一 个 Future。 


object TestConcurrency { 
def main(args: Array[String]) { 
fOr i se E05 让 朱 
val result : Future[lString] = Future { 
Var task : Task = new Task(); 
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task.doAction("Task "+i,i); 


} 
result onComplete { 
case Success (value) => println(value) 
case Failure(e) => println("An error has occured: " 
+e.getMessage) 
} 


result onSuccess { 
case Value => println("Second callback: "+value); 


} 
TimeUnit.SECONDS.sleep (20) 


} 
下 面 的 屏幕 截图 显示 了 执行 本 例 后 的 输出 结果 。 


Task 7 has been sleeping for 7 seconds 
ForkJoinPool-1-worker-7: Task 8: End exeuction 

Second callback: Task 8 has been sleeping for 8 seconds 
Task 8 has been sleeping for 8 seconds 
ForkJoinPool-1-worker-5: Task 9: End exeuction 

Task 9 has been sleeping for 9 seconds 

Second callback: Task 9 has been sleeping for 9 seconds 
ForkJoinPool-1-worker-3: Task 19: End exeuction 

Task 19 has been sleeping for 19 seconds 

Second callback: Task 18 has been sleeping for 19 seconds 


Future 对 象 提供 的 另 一 个 选项 是 将 两 个 Future 对 象 的 执行 关联 起 来 ; 也 就 是 说 ， 可 以 确保 一 个 
Future 在 男 一 个 Future 执行 结束 后 开始 执行 ， 并 且 使 用 后 者 的 结果 作为 参数 。 来 看 一 个 使 用 该 功能 的 
例子 。 

首先 ,创建 一 个 名 为 step1 的 类 , 它 含有 一 个 名 为 soaction () 的 方法 , 该 方法 接收 一 个 字符 串 
和 一 个 数值 作为 参数 ， 并 且 返 回 一 个 字符 串 。 


class Stepl { 


def doAction(name : String, number: Int) : String = { 
var result :: String = ""; 
println(Thread.currentThread() .getName()+": "+name+": Step 1: 


Starting execution"); 
TimeUnit.SECONDS.sleep (number); 


println(Thread.currentThread() .getName()+": "+name+": Step 1: End 
exeuction"); 
result = name +" has been sleeping for " + number + " seconds "; 


return result; 


} 
然后 ， 创 建 一 个 类 似 的 名 为 step2 的 类 。 


class Step2 { 
def doAction(name: String, msg : String) : String = { 
var result : StELing ST 


println(Thread.currentThread() .getName()+": "+name+": Step 2: 
Starting execution"); 3 
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result = name +" has executed Step 2: "+msg; 


println(Thread.currentThread() .getName()+": "+name+": Step 2: End 
exeuction"); 


return result; 


} 


最 后 , 创建 一 个 名 为 TestConcurrency 的 对 象 以 及 main () 方 法 , 其 中 有 一 个 将 执行 10 次 的 循环 。 


object TestConcurrency { 
def main(args: Array[String]) { 


{OR CL nel to LO0) 


然后 ， 创 建 第 一 个 Future， 它 将 创建 stepl 类 的 一 个 对 象 ， 并 且 调 用 aoaction () 方 法 。 


var name : String = "Task "+i; 

val result : Future[lString] = Future { 
Var task : Stepl = new Stepl(); 
task.doAction (name,i); 


} 


然后 ， 使 用 map () 函数 将 一 个 Future 连接 到 结果 Future 对 象 。 该 Future 创建 step2 类 的 一 个 对 


象 ， 并 且 调 用 aoAction () 方 法 。 


val result2 = result map { value => 
Var task : Step2 = new Step2(); 
task.doAction(name, value); 


} 
在 该 Future 的 主体 中 指定 的 value 参数 是 第 一 个 Future 的 结 


最 后 ,将 onsuccess () 回调 函数 与 第 二 个 Future 关联 ， 以 便 在 控制 台中 输出 结果 。 下 面 的 屏幕 


截图 显示 了 执行 本 例 后 的 输出 结果 。 


ForkJoinPool-1-worker-1: Task 8: Step 2: End exeuction 

The output is: Task 8 has executed Step 2: Task 8 has been sleeping for 8 seconds 
ForkJoinPool-1-worker-5: Task 9: Step 1: End exeuction 

ForkJoinPool-1-worker-7: Task 9: Step 2: Starting execution 

ForkJoinPool-1-worker-7: Task 9: Step 2: End exeuction 

The output is: Task 9 has executed Step 2: Task 9 has been sleeping for 9 seconds 
ForkJoinPool-1-worker-3: Task 19: Step 1: End exeuction 

ForkJoinPool-1-worker-3: Task 19: Step 2: Starting execution 
ForkJoinPool-1-worker-3: Task 19: Step 2: End exeuction 

The output is: Task 19 has executed Step 2: Task 19 has been sleeping for 19 seconds 


你 可 以 看 到 ， 直 有 当 第 一 个 Future 完成 执行 ， 第 二 个 Future 才 会 开始 执行 。 


13.4.2 Promise 


Promise 是 一 种 可 以 用 来 完成 Future 的 机 制 。 首先 , 创建 Promise 类 的 一 个 对 象 , 然后 使 用 该 对 象 


来 创建 该 Promise 要 完成 的 Future。 可 以 将 回调 函数 与 该 Future 关 联 起 来 ,这 样 , 当 使 月 


方法 为 Promise 赋值 时 ，Future 将 完成 而 且 回 调 函 数 将 被 执行 。 


月 success 或 failure 


我 们 来 看 看 这 个 机 制 是 如 何 运作 的 。 创建 一 个 名 为 Testconcurrency 的 对 象 , 其 中 含有 main () 


方法 ， 并 且 创 建 一 个 Promise 对 象 和 一 个 Future 对 象 。 
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object TestConcurrency { 


def main(args: Array[lString]) { 


val promise : 


Promise[String] = 
val future 


= Promise[String] () 
: Future[String] = promise.future; 


使 用 Promise 的 构造 函数 创建 Promise 对 象 ， 并 且 使 用 Promise 对 象 的 future () 方 法 创建 与 该 
Promise 相关 联 的 Future。 
现在 ， 将 回调 函数 关联 到 对 象 future。 


future onSuccess { 


case value => println("The future has been completed: "+value) 
} 


站 


值 并 


此 后 ， 执 行 男 一 个 Future 来 完成 该 Promise。 在 本 例 中 ， 我 们 使 用 success () 方 法 为 Promise 赋 
且 完 成 该 Future。 


Future { 


promise success 


} 


"Hola Mundo"; 


最 后 ,使 用 Await 类 的 ready () 方 法 等 待 10 秒 钟 ， 待 Future 结束 。 


Await.ready (future, 10 seconds); 
} 


} 


当 你 执行 本 例 时 ， 会 看 到 onsuccess () 函数 输出 的 消息 。 当 你 执行 Promise 的 success 方法 时 ， 
将 完成 Future 并 执行 其 onsuccess () 回 调 函 数 。 


13.5 小结 


Java 并 不 是 唯一 可 以 针对 JVM 进行 编 


程 的 语言 。 还 有 很 多 不 同 的 编程 语言 采用 了 不 同 的 范式 ， 
也 可 以 用 于 这 一 目的 。 大 部 分 编程 语言 都 有 自己 实现 并 发 应 用 程序 的 机 制 。 
在 本 章 中 , 我 们 了 解 到 如 何 使 用 面向 JVM 的 三 种 语言 来 实现 并 发 应 用 程序 。 首先, Clojure 是 Lisp 


语言 的 一 种 实现 ， 它 提供 了 编写 并 发 应 用 程序 的 不 同 机 制 ， 如 Atom、Agent、Ref、Delay、 
Future 和 Promise。 然 后 ，Groovy 及 其 GPars 库 给 了 我 们 许多 可 能 性 ， 它 提供 了 Actor、Dataflow 和 并 
发 数据 结构 。 最 后 ， 我 们 讨论 了 Scala 及 其 基于 Future 和 Promis 的 并 发 模型 。 
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